推荐张华平老师的中文分词工具ICTCLAS2010

作者52nlp

5 月 3, 2010 #ICTCLAS, #ICTCLAS2010, #中文信息处理, #中文分词, #张华平, #自然语言处理

　　在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信，希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本，这个版本对于研究人员非商业免费使用一年，所以在这里做个推荐，非常感谢张老师对于中文信息处理领域的贡献!
　　我已将下载链接放在了“资源”页面里的“中文分词相关工具”下，该版本无需注册，非商用免费使用一年，下载地址是：
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
　　关于ICTCLAS2010共享版的详细情况，可以参考张华平老师博客中的这篇文章：《发布ICTCLAS2010共享版-无需注册，非商用免费1年》
　　更多关于中文信息处理及中文分词的问题可以参考张老师的博客：http://hi.baidu.com/drkevinzhang
　　这个博客虽然刚刚建立不久，但是张老师已经提供了一些很不错的自然语言处理方面的有用资源，非常值得关注。

注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010

作者 52nlp

MIT自然语言处理中文信息处理人工智能

《推荐张华平老师的中文分词工具ICTCLAS2010》有21条评论

我是一头驴子说道：

2010年05月5号 15:22

你好，我这有一批新闻语料库，包括腾讯，新浪，网易，凤凰等等。是自己写的新闻爬虫下载的，曾经放到了CSDN上，但是觉得共享度不够，能不能借宝地一用？

[回复]
我是一头驴子说道：

2010年05月5号 15:22

是免费的。~

[回复]
52nlp 回复:
5 5 月, 2010 at 21:30
谢谢！不过我也没有什么宝地，提供的资源都是放在网络硬盘上的，虚拟主机的空间有流量限制，呵呵！

可以把CSDN上的链接写在这里，我在“资源”页面做个链接！

[回复]
我是一头驴子说道：

2010年05月5号 21:40

当时CSDN上的资源我是标记资源分的啦。今天想把这些资源转到博客园的文件共享，无奈那边现在太大，一次性文件最多只能传 10M，还有总量限制。
http://finallyliuyu.download.csdn.net/
过几天再往CSDN上重传下试试~~

[回复]
52nlp 回复:
6 5 月, 2010 at 19:13
已在“资源”页面里做了链接，非常感谢！

[回复]
竹马说道：

2010年05月13号 10:07

你好，我是一个将毕业的大学生，这次毕设的题目是关于中文文本错误自动修改的。这个题目较本科生来言很难，经过我一段时间的研究对于分词这一部分已经有点眉目，但是关于后期的错误的自动修改还没有什么好的文献可以参考，不知道你能不能发一点文本错误自动修改的文献呢？

[回复]
52nlp 回复:
13 5 月, 2010 at 23:42
非常抱歉，这方面我不太清楚，另外手头也没有任何这方面的文献可以给你，建议你去水木社区自然语言处理版问一下，那里有很多牛人。

[回复]
竹马回复:
14 5 月, 2010 at 08:24
哈哈，多谢，你这里的资料已近给了我很大的帮助了。

[回复]
52nlp 回复:
15 5 月, 2010 at 00:12
不客气，欢迎常来看看。
softsnow823说道：

2010年05月14号 10:48

版主好，最近需要处理些文本，您有没有用过指代消解的工具呢，可不可以推荐下，先谢谢啦O(∩_∩)O~！

[回复]
52nlp 回复:
15 5 月, 2010 at 00:12
抱歉，没有用过这方面的工具。

[回复]
softsnow823 回复:
15 5 月, 2010 at 10:50
那也谢谢啦,我去论坛里问下O(∩_∩)O~！

[回复]
52nlp 回复:
16 5 月, 2010 at 00:16
不客气，人多力量大，我个人水平有限，呵呵！
kingsten_88说道：

2010年06月13号 10:54

版主好，能否推荐一些有关中文基本组块分析方面的资料，谢谢！

[回复]
52nlp 回复:
14 6 月, 2010 at 09:50
还是抱歉了，没有这方面的经验。

[回复]
Mark Fu说道：

2012年03月11号 13:51

ICTCLAS 2011 出来了
https://skydrive.live.com/?cid=51de2738d3ea0fdd&sc=documents&id=51DE2738D3EA0FDD!185#cid=51DE2738D3EA0FDD&id=51DE2738D3EA0FDD!240&sc=documents

[回复]
52nlp 回复:
11 3 月, 2012 at 16:41
谢谢!

[回复]
智慧塔说道：

2013年05月29号 09:52

推荐一个新的免费的中文分词服务网站：http://www.zhihuita.org/service/zh.tokenizer。分词速度与精度与ICTCLAS相当，也是一个不错的选择啊。

[回复]
gooshell 回复:
29 5 月, 2013 at 15:38
我试了"北京大学生喝进口红酒",感觉只是简单地应用了正向最大匹配法做分词而已.
另,我习惯了采用"北京大学生喝进口红酒"和"在北京大学生区喝进口红酒"这两句做简单测试.

[回复]
gooshell 回复:
29 5 月, 2013 at 15:39
更正:”在北京大学生区喝进口红酒”有误,是”在北京大学生活区喝进口红酒”

[回复]
智慧塔回复:
5 6 月, 2013 at 00:36
其实用的并不是正向最大匹配算法，网站提供了分词软件的下载链接。大家下载后可以用PKU的语料测试一下，F-measure大概在96%到99%之间，分词速度大于30万汉字每秒。另外，喝红酒的例子网站上已经改了，多谢提供这么经典的例子。

推荐张华平老师的中文分词工具ICTCLAS2010

作者52nlp

作者 52nlp

相关文章

多模型结合的等长拼写纠错|全国中文纠错大赛冠军方案

文字语义纠错技术探索与实践-张健

自动作文生成器：来试试用预训练模型自动写中文作文

《推荐张华平老师的中文分词工具ICTCLAS2010》有21条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《推荐张华平老师的中文分词工具ICTCLAS2010》有21条评论

发表回复

You missed