在国内的自然语言处理领域,估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了,所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信,希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本,这个版本对于研究人员非商业免费使用一年,所以在这里做个推荐,非常感谢张老师对于中文信息处理领域的贡献!
  我已将下载链接放在了“资源”页面里的“中文分词相关工具”下,该版本无需注册,非商用免费使用一年,下载地址是:
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
  关于ICTCLAS2010共享版的详细情况,可以参考张华平老师博客中的这篇文章:《发布ICTCLAS2010共享版-无需注册,非商用免费1年
  更多关于中文信息处理及中文分词的问题可以参考张老师的博客:http://hi.baidu.com/drkevinzhang
  这个博客虽然刚刚建立不久,但是张老师已经提供了一些很不错的自然语言处理方面的有用资源,非常值得关注。

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010

作者 52nlp

《推荐张华平老师的中文分词工具ICTCLAS2010》有21条评论
  1. 你好,我这有一批新闻语料库,包括腾讯,新浪,网易,凤凰等等。是自己写的新闻爬虫下载的,曾经放到了CSDN上,但是觉得共享度不够,能不能借宝地一用?

    [回复]

  2. 是免费的。~

    [回复]

    52nlp 回复:

    谢谢!不过我也没有什么宝地,提供的资源都是放在网络硬盘上的,虚拟主机的空间有流量限制,呵呵!

    可以把CSDN上的链接写在这里,我在“资源”页面做个链接!

    [回复]

  3. 你好,我是一个将毕业的大学生,这次毕设的题目是关于中文文本错误自动修改的。这个题目较本科生来言很难,经过我一段时间的研究对于分词这一部分已经有点眉目,但是关于后期的错误的自动修改还没有什么好的文献可以参考,不知道你能不能发一点文本错误自动修改的文献呢?

    [回复]

    52nlp 回复:

    非常抱歉,这方面我不太清楚,另外手头也没有任何这方面的文献可以给你,建议你去水木社区自然语言处理版问一下,那里有很多牛人。

    [回复]

    竹马 回复:

    哈哈, 多谢,你这里的资料已近给了我很大的帮助了。

    [回复]

    52nlp 回复:

    不客气,欢迎常来看看。

  4. 版主好,最近需要处理些文本,您有没有用过指代消解的工具呢,可不可以推荐下,先谢谢啦O(∩_∩)O~!

    [回复]

    52nlp 回复:

    抱歉,没有用过这方面的工具。

    [回复]

    softsnow823 回复:

    那也谢谢啦,我去论坛里问下O(∩_∩)O~!

    [回复]

    52nlp 回复:

    不客气,人多力量大,我个人水平有限,呵呵!

  5. 版主好,能否推荐一些有关中文基本组块分析方面的资料,谢谢!

    [回复]

    52nlp 回复:

    还是抱歉了,没有这方面的经验。

    [回复]

  6. 推荐一个新的免费的中文分词服务网站:http://www.zhihuita.org/service/zh.tokenizer。分词速度与精度与ICTCLAS相当,也是一个不错的选择啊。

    [回复]

    gooshell 回复:

    我试了"北京大学生喝进口红酒",感觉只是简单地应用了正向最大匹配法做分词而已.
    另,我习惯了采用"北京大学生喝进口红酒"和"在北京大学生区喝进口红酒"这两句做简单测试.

    [回复]

    gooshell 回复:

    更正:”在北京大学生区喝进口红酒”有误,是”在北京大学生活区喝进口红酒”

    [回复]

    智慧塔 回复:

    其实用的并不是正向最大匹配算法,网站提供了分词软件的下载链接。大家下载后可以用PKU的语料测试一下,F-measure大概在96%到99%之间,分词速度大于30万汉字每秒。另外,喝红酒的例子网站上已经改了,多谢提供这么经典的例子。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注