<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 中文信息处理</title>
	<atom:link href="http://www.52nlp.cn/category/chinese-information-processing/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>欢迎大家试用信息学科数字化知识服务网络平台</title>
		<link>http://www.52nlp.cn/autoinnovation</link>
		<comments>http://www.52nlp.cn/autoinnovation#comments</comments>
		<pubDate>Thu, 29 Dec 2011 03:17:28 +0000</pubDate>
		<dc:creator>finallyliuyu</dc:creator>
				<category><![CDATA[中文信息处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4192</guid>
		<description><![CDATA[&#160; 各位同学、老师、网友，大家好，由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是：http://autoinnovation.ia.ac.cn/,欢迎大家使用，并且给我们提出意见和建议。      下面是平台使用过程中的几点注意事项：（1）初次使用时，如果您的浏览器没有安装silverlight插件，请您按提示下载安装该插件；（2）如果您在使用中遇到一些小问题，可以查看网站的帮助文件；（3）该平台框架实际为数据库检索系统，因此您输入检索词后，需要等待下拉菜单出现相应检索词，选中相应检索词，之后在点击搜索按钮，如下图所示     图 1 检索说明示意图    平台旨在挖掘、分析和展现我国自动化领域（包括部分计算机、通信的交叉领域）自1960年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景，对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等，做了全方位的关联分析。为了更好地展现知识，我们在精心设计页面布局的基础上，使用了Silverlight、Ajax等技术进行网站开发；为了让展现出来的知识更加精确，我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。 该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发，我们都本着精益求精的原则，团队内部经过多次尝试和试验，力求选择最佳方案。但是作为一个人员有限的开发团队，我们的思虑与广博的群体智慧相比还是有所逊色的。为此，我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议，您的意见和建议将是敦促我们进步和改进的最给力的源泉！ 我们的联系方式是： email: y.liu@ia.ac.cn  新浪微博：http://weibo.com/autoinnovation                  http://weibo.com/finallyly 如果您觉得方便，可以留下您的姓名和单位，我们将在我们的网站进行致谢！ 数据共享计划： 同时，我们将与数据堂展开合作，开源部自然语言处理相关资源，期待大家的关注。欢迎大家就NLP资源的需求问题，以及文本挖掘的技术问题互相交流和探讨。 &#160;   &#160; 相关文章: NLP资源共享盛宴 52NLP微博-当真李逵遇到假李逵
相关文章:<ol>
<li><a href='http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4' rel='bookmark' title='NLP资源共享盛宴'>NLP资源共享盛宴</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>&nbsp;</p>
<p align="left">各位同学、老师、网友，大家好，由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是：<a href="http://autoinnovation.ia.ac.cn/"><span style="color: #800080">http://autoinnovation.ia.ac.cn/</span></a>,欢迎大家使用，并且给我们提出意见和建议。</p>
<p align="left">     下面是平台使用过程中的几点注意事项：（<span style="color: #000000"><span style="font-family: 宋体">1</span>）初次使用时，如果您的浏览器没有安装</span><span style="color: #000000"><span style="font-family: 宋体">silverlight</span>插件，请您按提示下载安装该插件；（</span><span style="color: #000000"><span style="font-family: 宋体">2</span>）如果您在使用中遇到一些小问题，可以查看网站的帮助文件<span style="color: #ff0000">；</span></span><span style="color: #ff0000">（<span style="font-family: 宋体">3</span>）</span><span style="color: #ff0000">该平台框架实际为数据库检索系统，因此您输入检索词后，需要等待下拉菜单出现相应检索词，选中相应检索词，之后在点击搜索按钮，如下图所示</span></p>
<p>  <a href="http://www.52nlp.cn/autoinnovation/wangzhanshiyongshuoming-2" rel="attachment wp-att-4193"><img class="alignnone size-medium wp-image-4193" src="http://www.52nlp.cn/wp-content/uploads/2011/12/wangzhanshiyongshuoming1-300x156.jpg" alt="" width="300" height="156" /></a></p>
<p> <span style="font-size: x-small"><span style="color: #000000">图<span style="font-family: Cambria"> 1 </span></span><span style="color: #000000">检索说明示意图</span></span></p>
<p>   平台旨在挖掘、分析和展现我国自动化领域（包括部分计算机、通信的交叉领域）自<span style="color: #000000"><span style="font-family: 宋体">1960</span>年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景，对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等，做了全方位的关联分析。为了更好地展现知识，我们在精心设计页面布局的基础上，使用了</span><span style="color: #000000"><span style="font-family: 宋体">Silverlight</span>、</span><span style="color: #000000"><span style="font-family: 宋体">Ajax</span>等技术进行网站开发；为了让展现出来的知识更加精确，我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。</span></p>
<p>该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发，我们都本着精益求精的原则，团队内部经过多次尝试和试验，力求选择最佳方案。但是作为一个人员有限的开发团队，我们的思虑与广博的群体智慧相比还是有所逊色的。为此，我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议，您的意见和建议将是敦促我们进步和改进的最给力的源泉！</p>
<p>我们的联系方式是：</p>
<p align="left">email: <a href="mailto:y.liu@ia.ac.cn"><span style="color: #0000ff">y.liu@ia.ac.cn</span></a></p>
<p> <span style="color: #000000">新浪微博：</span><a href="http://weibo.com/autoinnovation"><span style="color: #800080">http://weibo.com/autoinnovation</span></a></p>
<p>                 <a href="http://weibo.com/finallyly"><span style="color: #800080;font-family: 宋体">http://weibo.com/finallyly</span></a></p>
<p align="left"><span style="color: #000000">如果您觉得方便，可以留下您的姓名和单位，我们将在我们的网站进行致谢！</span></p>
<p align="left"><span style="color: #000000">数据共享计划：</span></p>
<p align="left">同时，我们将与<a href="http://www.datatang.com/"><span style="color: #0070c0;font-family: 宋体">数据堂</span></a>展开合作，开源部自然语言处理相关资源，期待大家的关注。欢迎大家就<span style="color: #0070c0"><span style="font-family: 宋体">NLP</span><span style="color: #000000">资源的需求问题，以及文本挖掘的技术问题互相交流和探讨。</span></span></p>
<p>&nbsp;</p>
<p align="left"><span style="color: #000000;font-family: 宋体"> </span></p>
<p>&nbsp;</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4' rel='bookmark' title='NLP资源共享盛宴'>NLP资源共享盛宴</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/autoinnovation/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>NiuTrans: 一套开源的统计机器翻译平台</title>
		<link>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0</link>
		<comments>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0#comments</comments>
		<pubDate>Tue, 05 Jul 2011 15:20:37 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[CWMT]]></category>
		<category><![CDATA[Moses]]></category>
		<category><![CDATA[NiuTrans]]></category>
		<category><![CDATA[东北大学]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[朱靖波]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4041</guid>
		<description><![CDATA[　　晚上在CWMT（China Workshop on Machine Translation）的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件，题为“NiuTrans: 一套开源的统计机器翻译平台”，仔细读了一下，觉得这句话很有分量：“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣，可以去NiuTrans的主页去申请下载，做个测试，NiuTrans的主页见：http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台（LTP）源代码正式对外共享”，而今东北大学也开源了NiuTrans这套统计机器翻译平台，这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件： 各位老师，大家好！ 我们实验室经过多个月的努力，NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功，Alpha版源代码正式对外免费发布，目前访问入口显示在我们实验室网站（http://www.nlplab.com）首页左上角。网页上提供了详细的使用说明和高级参数设置方法，并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单，在注册页输入姓名和电子邮件，即可得到动态下载的链接。建议提供正确的电子邮件，这样以后可以随时得到NiuPlan的最新发布和更新信息。 计划一年之内，我们实验室将不断推出NiuPlan不同系列的开源系统，包括Hierarchical phrase-based model，Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。 NiuPlan最终将推出四个系列的开源平台系统：NiuTrans, NiuParser, NiuMining, and NiuKnowledge（暂定名字）系列系统．欢迎同行们免费下载使用，并能够将宝贵建议及时反馈给我们，我们承诺将尽力尽快完善NiuPlan各系列开源系统，在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取．祝好！ Best regards, Dr. Jingbo Zhu (朱靖波) Professor(PhD Supervisor), Director Natural Language Processing Laboratory Northeastern University Shenyang, Liaoning, P.R.China Phone: 0086-24-83672481 (O)(Fax) &#8230; <a href="http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>　　晚上在CWMT（China Workshop on Machine Translation）的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件，题为“NiuTrans: 一套开源的统计机器翻译平台”，仔细读了一下，觉得这句话很有分量：“内部测试结果显示性能和速度稳定优于<a href="http://www.52nlp.cn/moses-introduction">Moses</a>”,如果读者感兴趣，可以去NiuTrans的主页去申请下载，做个测试，NiuTrans的主页见：<a href="http://www.nlplab.com/NiuPlan/NiuTrans.html"target=_blank>http://www.nlplab.com/NiuPlan/NiuTrans.html</a>。前不久“<a href="http://www.52nlp.cn/%E5%93%88%E5%B7%A5%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%8A%80%E6%9C%AF%E5%B9%B3%E5%8F%B0ltp%E6%BA%90%E4%BB%A3%E7%A0%81%E6%AD%A3%E5%BC%8F%E5%AF%B9%E5%A4%96%E5%85%B1%E4%BA%AB">哈工大语言技术平台（LTP）源代码正式对外共享</a>”，而今东北大学也开源了NiuTrans这套统计机器翻译平台，这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件：</strong></p>
<p>各位老师，大家好！</p>
<p>我们实验室经过多个月的努力，NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功，Alpha版源代码正式对外免费发布，目前访问入口显示在我们实验室网站（http://www.nlplab.com）首页左上角<NiuPlan: An Open-Source NLP Platform>。网页上提供了详细的使用说明和高级参数设置方法，并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单，在注册页输入姓名和电子邮件，即可得到动态下载的链接。建议提供正确的电子邮件，这样以后可以随时得到NiuPlan的最新发布和更新信息。</p>
<p>计划一年之内，我们实验室将不断推出NiuPlan不同系列的开源系统，包括Hierarchical phrase-based model，Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。</p>
<p>NiuPlan最终将推出四个系列的开源平台系统：NiuTrans, NiuParser, NiuMining, and NiuKnowledge（暂定名字）系列系统．欢迎同行们免费下载使用，并能够将宝贵建议及时反馈给我们，我们承诺将尽力尽快完善NiuPlan各系列开源系统，在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取．祝好！</p>
<p>Best regards, </p>
<p>Dr. Jingbo Zhu (朱靖波)<br />
Professor(PhD Supervisor), Director<br />
Natural Language Processing Laboratory<br />
Northeastern University<br />
Shenyang, Liaoning, P.R.China<br />
Phone: 0086-24-83672481 (O)(Fax)<br />
Email: zhujingbo at mail.neu.edu.cn<br />
Homepage: http://www.nlplab.com/members/zhujingbo.html</p>
<p><span id="more-4041"></span><br />
注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/niutrans-一套开源的统计机器翻译平台">http://www.52nlp.cn/niutrans-一套开源的统计机器翻译平台</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/acl09-full-paper-accepted-details' rel='bookmark' title='ACL09 Full Paper录用情况'>ACL09 Full Paper录用情况</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-language-weaver' rel='bookmark' title='自然语言处理公司巡礼七：Language Weaver'>自然语言处理公司巡礼七：Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/acl-2010-paper-%e5%9b%bd%e5%86%85%e7%a0%94%e7%a9%b6%e5%8d%95%e4%bd%8d%e5%bd%95%e7%94%a8%e6%83%85%e5%86%b5' rel='bookmark' title='ACL 2010 Paper国内研究单位录用情况'>ACL 2010 Paper国内研究单位录用情况</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99-sdl%e5%85%ac%e5%8f%b8%e6%94%b6%e8%b4%adlanguage-weaver' rel='bookmark' title='机器翻译新闻一则：SDL公司收购Language Weaver'>机器翻译新闻一则：SDL公司收购Language Weaver</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>哈工大语言技术平台（LTP）源代码正式对外共享</title>
		<link>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab</link>
		<comments>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab#comments</comments>
		<pubDate>Mon, 06 Jun 2011 01:43:44 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[LTP]]></category>
		<category><![CDATA[哈工大]]></category>
		<category><![CDATA[语言技术平台]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4021</guid>
		<description><![CDATA[哈工大语言技术平台（LTP）源代码已经于6月1号正式对外共享，这对于广大致力于中文信息处理的NLPer来说，无疑是一个好消息。以下转载自“哈工大社会计算与信息检索研究中心”的官方主页，有需要的读者可以关注一下： 语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library, DLL）的应用程序接口，可视化工具，依存树库等语料资源，并且能够以网络服务（Web Service）的形式进行使用。 从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项：”钱伟长中文信息处理科学技术奖”一等奖。 2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，我中心正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。详见：http://ir.hit.edu.cn/ltp/ 欢迎各界朋友共享！ 相关文章: NiuTrans: 一套开源的统计机器翻译平台 Matrix67：漫话中文分词算法 第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1 神奇的约翰霍普金斯夏季研讨会 中文分词入门之最大匹配法扩展2 中文分词入门之篇外 中文分词入门之字标注法1 代友转发：发起成立中文机器翻译定期学术沙龙 LDC上免费的中文信息处理资源 砖石，还是露水
相关文章:<ol>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99' rel='bookmark' title='代友转发：发起成立中文机器翻译定期学术沙龙'>代友转发：发起成立中文机器翻译定期学术沙龙</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>哈工大语言技术平台（LTP）源代码已经于6月1号正式对外共享，这对于广大致力于中文信息处理的NLPer来说，无疑是一个好消息。以下转载自“哈工大社会计算与信息检索研究中心”的<a href="http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&#038;ANN_user_op=view&#038;ANN_id=361">官方主页</a>，有需要的读者可以关注一下： </p>
<p><strong>语言技术平台（Language Technology Platform，LTP）是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示，并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块（包括词法、句法、语义等6项中文处理核心技术），以及基于动态链接库（Dynamic Link Library, DLL）的应用程序接口，可视化工具，依存树库等语料资源，并且能够以网络服务（Web Service）的形式进行使用。</p>
<p>从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项：”钱伟长中文信息处理科学技术奖”一等奖。</p>
<p>2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，我中心正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。详见：http://ir.hit.edu.cn/ltp/</p>
<p>欢迎各界朋友共享！</strong></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e5%b1%8a%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b3%b0%e4%bc%9a%e5%92%8cnist2009%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e8%af%84%e6%b5%8b%e7%ae%80%e4%bb%8b1' rel='bookmark' title='第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1'>第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1</a></li>
<li><a href='http://www.52nlp.cn/the-magic-of-johns-hopkins-summer-workshop' rel='bookmark' title='神奇的约翰霍普金斯夏季研讨会'>神奇的约翰霍普金斯夏季研讨会</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99' rel='bookmark' title='代友转发：发起成立中文机器翻译定期学术沙龙'>代友转发：发起成立中文机器翻译定期学术沙龙</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e7%a0%96%e7%9f%b3-%e8%bf%98%e6%98%af%e9%9c%b2%e6%b0%b4' rel='bookmark' title='砖石，还是露水'>砖石，还是露水</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%93%88%e5%b7%a5%e5%a4%a7%e8%af%ad%e8%a8%80%e6%8a%80%e6%9c%af%e5%b9%b3%e5%8f%b0ltp%e6%ba%90%e4%bb%a3%e7%a0%81%e6%ad%a3%e5%bc%8f%e5%af%b9%e5%a4%96%e5%85%b1%e4%ba%ab/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Matrix67：漫话中文分词算法</title>
		<link>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95</link>
		<comments>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95#comments</comments>
		<pubDate>Thu, 10 Mar 2011 13:49:14 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[Matrix67]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[统计语言模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3818</guid>
		<description><![CDATA[注：这是今天在Matrix67上看到的关于中文分词的文章，粗略的读了一遍，觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来，不愧是北大中文系的牛人！以下文章转自于Matrix67的“漫话中文分词算法”，有兴趣的读者可以移步到他的blog观赏。 记得第一次了解中文分词算法是在 Google 黑板报 上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进 行研究，期间诞生了很多有意思的理论。 中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／ 的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一个词，“尚未”也是一个词，从计算机的角度看上去，两 者似乎都有可能。对于计算机来说，这样的分词困境就叫做“交集型歧义”。 有时候，交集型歧义的“歧义链”有可能会更长。“中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的 角度来看，随便切几刀下去，得出的切分都是合理的。类似的例子数不胜数，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现 象。在这些极端例子下，分词算法谁优谁劣可谓是一试便知。 最简单的，也是最容易想到的自动分词算法，便是“最大匹配法”了。也就是说，从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直 到把句子划分完。算法的理由很简单：人在阅读时也是从左往右逐字读入的，最大匹配法是与人的习惯相符的。而在大多数情况下，这种算法也的确能侥幸成功。不 过，这种算法并不可靠，构造反例可以不费吹灰之力。例如，“北京大学生前来应聘”本应是“北京／大学生／前来／应聘”，却会被误分成“北京大学／生前／来 ／应聘”。 维护一个特殊规则表，可以修正一些很机械的问题，效果相当不错。例如，“不可能”要划分成“不／可能”，“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”单独切出，“的确切”后面是抽象名词时要把“的确切”分成“的／确切”，等等。 还有一个适用范围相当广的特殊规则，这个强大的规则能修正很多交集型歧义的划分错误。首先我们要维护一个一般不单独成词的字表，比如 “民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考 虑它与前面的字组词的可能。例如，在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民” 并不能单独划出，于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为／人民／ 服务”。 不过，上述算法归根结底，都是在像人一样从左到右地扫描文字。为了把问题变得更加形式化，充分利用计算机的优势，我们还有一种与人的阅读习惯完全 不同的算法思路：把句子作为一个整体来考虑，从全局的角度评价一个句子划分方案的好坏。设计自动分词算法的问题，也就变成了如何评估分词方案优劣的问题。 最初所用的办法就是，寻找词数最少的划分。注意，每次都匹配最长的词，得出的划分不见得是词数最少的，错误的贪心很可能会不慎错过一些更优的路。因而，在 有的情况下，最少词数法比最大匹配法效果更好。若用最大匹配法来划分，“独立自主和平等互利的原则”将被分成“独立自主／和平／等／互利／的／原则”，一 共有 6 个词；但词数更少的方案则是“独立自主／和／平等互利／的／原则”，一共只有 5 个词。 当然，最少词数法也会有踩大便的时候。“为人民办公益”的最大匹配划分和最少词数划分都是“为人／民办／公益”，而正确的划分则是“为／人 民／办／公益”。同时，很多句子也有不止一个词数最少的分词方案，最少词数法并不能从中选出一个最佳答案。不过，把之前提到的“不成词字表”装备到最少词 数法上，我们就有了一种简明而强大的算法： 对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。 这种算法的效果出人意料的好。“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分： 他／说／的／确实／在理 （罚分：1+1+1+1+1 = &#8230; <a href="http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>注：这是今天在<a href="http://www.matrix67.com/blog/">Matrix67</a>上看到的关于中文分词的文章，粗略的读了一遍，觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来，不愧是北大中文系的牛人！以下文章转自于Matrix67的“<a href="http://www.matrix67.com/blog/archives/4212">漫话中文分词算法</a>”，有兴趣的读者可以移步到他的blog观赏。</strong></p>
<p>记得第一次了解中文分词算法是在 <a href="http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_7327.html">Google 黑板报</a> 上看到的，当初看到那个算法时我彻底被震撼住了，想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法，才知道这并不是中文分词算法研究的全部，前前后后还有很多故事可讲。在没有建立统计语言模型时，人们还在语言学的角度对自动分词进 行研究，期间诞生了很多有意思的理论。</p>
<p>中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”，应该分成“结婚／的／和／尚未／结婚／的”，还是“结婚／的／和尚／未／结婚／ 的”？人来判断很容易，要交给计算机来处理就麻烦了。问题的关键就是，“和尚未”里的“和尚”也是一个词，“尚未”也是一个词，从计算机的角度看上去，两 者似乎都有可能。对于计算机来说，这样的分词困境就叫做“交集型歧义”。</p>
<p>有时候，交集型歧义的“歧义链”有可能会更长。“中外科学名著”里，“中外”、“外科”、“科学”、“学名”、“名著”全是词，光从词库的 角度来看，随便切几刀下去，得出的切分都是合理的。类似的例子数不胜数，“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现 象。在这些极端例子下，分词算法谁优谁劣可谓是一试便知。<br />
<span id="more-3818"></span><br />
最简单的，也是最容易想到的自动分词算法，便是“最大匹配法”了。也就是说，从句子左端开始，不断匹配最长的词（组不了词的单字则单独划开），直 到把句子划分完。算法的理由很简单：人在阅读时也是从左往右逐字读入的，最大匹配法是与人的习惯相符的。而在大多数情况下，这种算法也的确能侥幸成功。不 过，这种算法并不可靠，构造反例可以不费吹灰之力。例如，“北京大学生前来应聘”本应是“北京／大学生／前来／应聘”，却会被误分成“北京大学／生前／来 ／应聘”。</p>
<p>维护一个特殊规则表，可以修正一些很机械的问题，效果相当不错。例如，“不可能”要划分成“不／可能”，“会诊”后面接“断”、“疗”、“脉”、“治”时要把“会”单独切出，“的确切”后面是抽象名词时要把“的确切”分成“的／确切”，等等。</p>
<p>还有一个适用范围相当广的特殊规则，这个强大的规则能修正很多交集型歧义的划分错误。首先我们要维护一个一般不单独成词的字表，比如 “民”、“尘”、“伟”、“习”等等；这些字通常不会单独划出来，都要跟旁边的字一块儿组成一个词。在分词过程中时，一旦发现这些字被孤立出来，都重新考 虑它与前面的字组词的可能。例如，在用最大匹配法切分“为人民服务”时，算法会先划出“为人”一词，而后发现“民”字只能单独成词了。查表却发现，“民” 并不能单独划出，于是考虑进行修正——把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词，据此便可得出正确的划分“为／人民／ 服务”。</p>
<p>不过，上述算法归根结底，都是在像人一样从左到右地扫描文字。为了把问题变得更加形式化，充分利用计算机的优势，我们还有一种与人的阅读习惯完全 不同的算法思路：把句子作为一个整体来考虑，从全局的角度评价一个句子划分方案的好坏。设计自动分词算法的问题，也就变成了如何评估分词方案优劣的问题。 最初所用的办法就是，寻找词数最少的划分。注意，每次都匹配最长的词，得出的划分不见得是词数最少的，错误的贪心很可能会不慎错过一些更优的路。因而，在 有的情况下，最少词数法比最大匹配法效果更好。若用最大匹配法来划分，“独立自主和平等互利的原则”将被分成“独立自主／和平／等／互利／的／原则”，一 共有 6 个词；但词数更少的方案则是“独立自主／和／平等互利／的／原则”，一共只有 5 个词。</p>
<p>当然，最少词数法也会有踩大便的时候。“为人民办公益”的最大匹配划分和最少词数划分都是“为人／民办／公益”，而正确的划分则是“为／人 民／办／公益”。同时，很多句子也有不止一个词数最少的分词方案，最少词数法并不能从中选出一个最佳答案。不过，把之前提到的“不成词字表”装备到最少词 数法上，我们就有了一种简明而强大的算法：</p>
<p>对于一种分词方案，里面有多少词，就罚多少分；每出现一个不成词的单字，就加罚一分。最好的分词方案，也就是罚分最少的方案。</p>
<p>这种算法的效果出人意料的好。“他说的确实在理”是一个很困难的测试用例，“的确”和“实在”碰巧也成词，这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的，因此很多切分方案都会被扣掉不少分：</p>
<p>他／说／的／确实／在理 （罚分：1+1+1+1+1 = 5 ）<br />
他／说／的确／实／在理 （罚分：1+1+1+2+1 = 6 ）<br />
他／说／的确／实在／理 （罚分：1+1+1+1+2 = 6 ）</p>
<p>正确答案胜出。</p>
<p>需要指出的是，这个算法并不需要枚举所有的划分可能。整个问题可以转化为图论中的最短路径问题，利用动态规划效率则会更高。</p>
<p>算法还有进一步加强的余地。大家或许已经想到了，“字不成词”有一个程度的问题。“民”是一个不成词的语素，它是绝对不会单独成词的。 “鸭”一般不单独成词，但在儿歌童谣和科技语体中除外。“见”则是一个可以单独成词的语素，只是平时我们不常说罢了。换句话说，每个字成词都有一定的概 率，每个词出现的频率也是不同的。</p>
<p>何不用每个词出现的概率，来衡量分词的优劣？于是我们有了一个更标准、更连续、更自动的改进算法：先统计大量真实语料中各个词出现的频率，然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划，不难求出得分最高的方案。</p>
<p>以“有意见分歧”为例，让我们看看最大概率法是如何工作的。查表可知，在大量真实语料中，“有”、“有意”、“意见”、“见”、“分歧”的 出现概率分别是 0.0181 、 0.0005 、 0.0010 、 0.0002 、 0.0001 ，因此“有／意见／分歧”的得分为  1.8×10<sup>-9</sup> ，但“有意／见／分歧”的得分只有 1.0×10<sup>-11</sup> ，正确方案完胜。</p>
<p>这里的假设是，用词造句无非是随机选词连在一块儿，是一个简单的一元过程。显然，这个假设理想得有点不合理，必然会有很多问题。考虑下面这句话：</p>
<p>这／事／的确／定／不／下来</p>
<p>但是概率算法却会把这个句子分成：</p>
<p>这／事／的／确定／不／下来</p>
<p>原因是，“的”字的出现概率太高了，它几乎总会从“的确”中挣脱出来。</p>
<p>其实，以上所有的分词算法都还有一个共同的大缺陷：它们虽然已经能很好地处理交集型歧义的问题，却完全无法解决另外一种被称为“组合型歧 义”的问题。所谓组合型歧义，就是指同一个字串既可合又可分。比如说，“个人恩怨”中的“个人”就是一个词，“这个人”里的“个人”就必须拆开；“这扇门 的把手”中的“把手”就是一个词，“把手抬起来”的“把手”就必须拆开；“学生会宣传部”中的“学生会”就是一个词，“学生会主动完成作业”里的“学生 会”就必须拆开。这样的例子非常多，“难过”、“马上”、“将来”、“才能”、“过人”、“研究所”、“原子能”都有此问题。究竟是合还是分，还得取决于 它两侧的词语。到目前为止，所有算法对划分方案的评价标准都是基于每个词固有性质的，完全不考虑相邻词语之间的影响；因而一旦涉及到组合型歧义的问题，最 大匹配、最少词数、概率最大等所有策略都不能实现具体情况具体分析。</p>
<p>于是，我们不得不跳出一元假设。此时，便有了那个 Google 黑板报上提到的统计语言模型算法。对于任意两个词语 w<sub>1</sub> 、 w<sub>2</sub> ，统计在语料库中词语 w<sub>1</sub> 后面恰好是 w<sub>2</sub> 的概率 P(w<sub>1</sub>, w<sub>2</sub>) 。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(∅, w<sub>1</sub>) · P(w<sub>1</sub>, w<sub>2</sub>) · … · P(w<sub>n-1</sub>, w<sub>n</sub>) ，其中 w<sub>1</sub>, w<sub>2</sub>, …, w<sub>n</sub> 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。这真是一个天才的模型，这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。</p>
<p>至此，中文自动分词算是有了一个漂亮而实用的算法。</p>
<p>但是，随便拿份报纸读读，你就会发现我们之前给出的测试用例都太理想了，简直就是用来喂给计算机的。在中文分词中，还有一个比分词歧义更令人头疼 的东西——未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名地名之类的东西？最近十年来，中文分词领域都在集中攻克这一难关。</p>
<p>在汉语的未定义词中，中国人名的规律是最强的了。根据统计，汉语姓氏大约有 1000  多个，其中“王”、“陈”、“李”、“张”、“刘”五大姓氏的覆盖率高达 32% ，前 400 个姓氏覆盖率高达 99%  。人名的用字也比较集中，“英”、“华”、“玉”、“秀”、“明”、“珍”六个字的覆盖率就有 10.35% ，最常用的 400 字则有 90%  的覆盖率。虽然这些字分布在包括文言虚词在内的各种词类里，但就用字的感情色彩来看，人名多用褒义字和中性字，少有不雅用字，因此规律性还是非常强的。根 据这些信息，我们足以计算一个字符串能成为名字的概率，结合预先设置的阈值便能很好地识别出可能的人名。</p>
<p>可是，如何把人名从句子中切出来呢？换句话说，如果句中几个连续字都是姓名常用字，人名究竟应该从哪儿取到哪儿呢？人名以姓氏为左边界，相 对容易判定一些。人名的右边界则可以从下文的提示确定出来：人名后面通常会接“先生”、“同志”、“校长”、“主任”、“医生”等身份词，以及“是”、 “说”、“报道”、“参加”、“访问”、“表示”等动作词。</p>
<p>但麻烦的情况也是有的。一些高频姓氏本身也是经常单独成词的常用字，例如“于”、“马”、“黄”、“常”、“高”等等。很多反映时代性的名 字也是本身就成词的，例如“建国”、“建设”、“国庆”、“跃进”等等。更讨厌的就是那些整个名字本身就是常用词的人了，他们会彻底打乱之前的各种模型。 如果分词程序也有智能的话，他一定会把所有叫“高峰”、“汪洋”、”庞博“的人拖出去斩了。</p>
<p>还有那些恰好与上下文组合成词的人名，例如：</p>
<p>费孝通向人大常委会提交书面报告<br />
邓颖超生前使用过的物品</p>
<p>这就是最考验分词算法的句子了。</p>
<p>相比之下，中国地名的用字就分散得多了，重庆就有一个叫做“犀牛屙屎”的地方。不过，中国地名委员会编写了《中华人民共和国地名录》，收录 了从高原盆地到桥梁电站共 10 万多个地名，这让中国地名的识别便利了很多。外文人名和地名的用字非常集中，识别的正确率要高出许多。</p>
<p>真正有些困难的就是识别机构名了，虽然机构名的后缀比较集中，但左边界的判断就有些难了。更难的就是品牌名了。如今各行各业大打创意战，品牌名可以说是无奇不有，而且经常本身就包含常用词，更是给自动分词添加了不少障碍。</p>
<p>最难识别的未登录词就是缩略语了。“教改”、“发改委”、“北医三院”都是比较好认的缩略语了，有些缩略语搞得连人也是丈二和尚摸不着头脑。你能猜到“人影办”是什么机构的简称吗？打死你都想不到，是“人工影响天气办公室”。</p>
<p>汉语中构造缩略语的规律很诡异，目前也没有一个定论。初次听到这个问题，几乎每个人都会做出这样的猜想：缩略语都是选用各个成分中最核心的 字，比如“安全检查”缩成“安检”，“人民警察”缩成“民警”等等。不过，反例也是有的，“邮政编码”就被缩成了“邮编”，但“码”无疑是更能概括“编 码”一词的。当然，这几个缩略语已经逐渐成词，可以加进词库了；不过新近出现的或者临时构造的缩略语该怎么办，还真是个大问题。</p>
<p>说到新词，网络新词的大量出现才是分词系统真正的敌人。这些新词汇的来源千奇百怪，几乎没有固定的产生机制。要想实现对网络文章的自动分词，目前来看可以说是相当困难的。革命尚未成功，分词算法还有很多进步的余地。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn/">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn/">http://www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/matrix67-漫话中文分词算法">http://www.52nlp.cn/matrix67-漫话中文分词算法</a></p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>代友转发：发起成立中文机器翻译定期学术沙龙</title>
		<link>http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99</link>
		<comments>http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99#comments</comments>
		<pubDate>Fri, 19 Nov 2010 13:20:54 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[学术沙龙]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3451</guid>
		<description><![CDATA[　　以下文字代友Alex转发，如果哪位读者有水木帐号，恳请转载到“水木自然语言处理版”，非常感谢！Alex从事的是技术翻译相关的工作，对机器翻译比较感兴趣，希望搞个北京地区线下交流的自然语言处理的学术沙龙，主要面向中文机器翻译，也欢迎NLP其他领域的朋友，以下文字系Alex所写： 中文机器翻译是自然语言处理的重要应用领域之一，其跨学科的特点非常显著，涉及了语言学、数学、计算机、认知科学等多种学科。 目前在北京和全国对相关研究感兴趣的人很多，相对分散。仅仅在北京，从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。 鉴于此，拟组织定期学术沙龙活动，在轻松的环境中相互交流学术问题，促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员，也欢迎公司企业界和京外相关人士参加。 有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢！ 相关文章: 中文机器翻译沙龙第五次活动报名和第四次活动小结 中文翻译技术沙龙第十次活动报名 中文机器翻译沙龙第四次活动报名和第三次活动小结 中文机器翻译沙龙第六次活动报名 中文翻译技术沙龙第七次活动 中文机器翻译沙龙第三次活动报名和第二次活动小结 中文翻译技术沙龙第八次活动 第十二次沙龙活动（特邀董振东老师做讲座）报名 中文翻译技术沙龙第十一次活动（特邀董振东老师做讲座）报名 中文词汇语义相关度测试集Words-240
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e4%ba%94%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e5%9b%9b%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第五次活动报名和第四次活动小结'>中文机器翻译沙龙第五次活动报名和第四次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%8d%81%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d' rel='bookmark' title='中文翻译技术沙龙第十次活动报名'>中文翻译技术沙龙第十次活动报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e5%9b%9b%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e4%b8%89%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第四次活动报名和第三次活动小结'>中文机器翻译沙龙第四次活动报名和第三次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e5%85%ad%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d' rel='bookmark' title='中文机器翻译沙龙第六次活动报名'>中文机器翻译沙龙第六次活动报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b8%83%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第七次活动'>中文翻译技术沙龙第七次活动</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e4%b8%89%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e4%ba%8c%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第三次活动报名和第二次活动小结'>中文机器翻译沙龙第三次活动报名和第二次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%85%ab%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第八次活动'>中文翻译技术沙龙第八次活动</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e6%ac%a1%e6%b2%99%e9%be%99%e6%b4%bb%e5%8a%a8%ef%bc%88%e7%89%b9%e9%82%80%e8%91%a3%e6%8c%af%e4%b8%9c%e8%80%81%e5%b8%88%e5%81%9a%e8%ae%b2%e5%ba%a7%ef%bc%89%e6%8a%a5%e5%90%8d' rel='bookmark' title='第十二次沙龙活动（特邀董振东老师做讲座）报名'>第十二次沙龙活动（特邀董振东老师做讲座）报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%8d%81%e4%b8%80%e6%ac%a1%e6%b4%bb%e5%8a%a8%ef%bc%88%e7%89%b9%e9%82%80%e8%91%a3%e6%8c%af%e4%b8%9c%e8%80%81%e5%b8%88' rel='bookmark' title='中文翻译技术沙龙第十一次活动（特邀董振东老师做讲座）报名'>中文翻译技术沙龙第十一次活动（特邀董振东老师做讲座）报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e8%af%8d%e6%b1%87%e8%af%ad%e4%b9%89%e7%9b%b8%e5%85%b3%e5%ba%a6%e6%b5%8b%e8%af%95%e9%9b%86words-240' rel='bookmark' title='中文词汇语义相关度测试集Words-240'>中文词汇语义相关度测试集Words-240</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　以下文字代友Alex转发，如果哪位读者有水木帐号，恳请转载到“水木自然语言处理版”，非常感谢！Alex从事的是技术翻译相关的工作，对机器翻译比较感兴趣，希望搞个北京地区线下交流的自然语言处理的学术沙龙，主要面向中文机器翻译，也欢迎NLP其他领域的朋友，以下文字系Alex所写：</p>
<blockquote><p>中文机器翻译是自然语言处理的重要应用领域之一，其跨学科的特点非常显著，涉及了语言学、数学、计算机、认知科学等多种学科。</p>
<p>目前在北京和全国对相关研究感兴趣的人很多，相对分散。仅仅在北京，从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。</p>
<p>鉴于此，拟组织定期学术沙龙活动，在轻松的环境中相互交流学术问题，促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员，也欢迎公司企业界和京外相关人士参加。</p>
<p>有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢！</p></blockquote>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e4%ba%94%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e5%9b%9b%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第五次活动报名和第四次活动小结'>中文机器翻译沙龙第五次活动报名和第四次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%8d%81%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d' rel='bookmark' title='中文翻译技术沙龙第十次活动报名'>中文翻译技术沙龙第十次活动报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e5%9b%9b%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e4%b8%89%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第四次活动报名和第三次活动小结'>中文机器翻译沙龙第四次活动报名和第三次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e5%85%ad%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d' rel='bookmark' title='中文机器翻译沙龙第六次活动报名'>中文机器翻译沙龙第六次活动报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e4%b8%83%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第七次活动'>中文翻译技术沙龙第七次活动</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%b2%99%e9%be%99%e7%ac%ac%e4%b8%89%e6%ac%a1%e6%b4%bb%e5%8a%a8%e6%8a%a5%e5%90%8d%e5%92%8c%e7%ac%ac%e4%ba%8c%e6%ac%a1%e6%b4%bb%e5%8a%a8%e5%b0%8f' rel='bookmark' title='中文机器翻译沙龙第三次活动报名和第二次活动小结'>中文机器翻译沙龙第三次活动报名和第二次活动小结</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%85%ab%e6%ac%a1%e6%b4%bb%e5%8a%a8' rel='bookmark' title='中文翻译技术沙龙第八次活动'>中文翻译技术沙龙第八次活动</a></li>
<li><a href='http://www.52nlp.cn/%e7%ac%ac%e5%8d%81%e4%ba%8c%e6%ac%a1%e6%b2%99%e9%be%99%e6%b4%bb%e5%8a%a8%ef%bc%88%e7%89%b9%e9%82%80%e8%91%a3%e6%8c%af%e4%b8%9c%e8%80%81%e5%b8%88%e5%81%9a%e8%ae%b2%e5%ba%a7%ef%bc%89%e6%8a%a5%e5%90%8d' rel='bookmark' title='第十二次沙龙活动（特邀董振东老师做讲座）报名'>第十二次沙龙活动（特邀董振东老师做讲座）报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e7%bf%bb%e8%af%91%e6%8a%80%e6%9c%af%e6%b2%99%e9%be%99%e7%ac%ac%e5%8d%81%e4%b8%80%e6%ac%a1%e6%b4%bb%e5%8a%a8%ef%bc%88%e7%89%b9%e9%82%80%e8%91%a3%e6%8c%af%e4%b8%9c%e8%80%81%e5%b8%88' rel='bookmark' title='中文翻译技术沙龙第十一次活动（特邀董振东老师做讲座）报名'>中文翻译技术沙龙第十一次活动（特邀董振东老师做讲座）报名</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e8%af%8d%e6%b1%87%e8%af%ad%e4%b9%89%e7%9b%b8%e5%85%b3%e5%ba%a6%e6%b5%8b%e8%af%95%e9%9b%86words-240' rel='bookmark' title='中文词汇语义相关度测试集Words-240'>中文词汇语义相关度测试集Words-240</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%bb%a3%e5%8f%8b%e8%bd%ac%e5%8f%91-%e5%8f%91%e8%b5%b7%e6%88%90%e7%ab%8b%e4%b8%ad%e6%96%87%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%ae%9a%e6%9c%9f%e5%ad%a6%e6%9c%af%e6%b2%99%e9%be%99/feed</wfw:commentRss>
		<slash:comments>19</slash:comments>
		</item>
		<item>
		<title>推荐张华平老师的中文分词工具ICTCLAS2010</title>
		<link>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010</link>
		<comments>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010#comments</comments>
		<pubDate>Mon, 03 May 2010 14:53:17 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[ICTCLAS]]></category>
		<category><![CDATA[ICTCLAS2010]]></category>
		<category><![CDATA[张华平]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3356</guid>
		<description><![CDATA[　　在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信，希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本，这个版本对于研究人员非商业免费使用一年，所以在这里做个推荐，非常感谢张老师对于中文信息处理领域的贡献! 　　我已将下载链接放在了“资源”页面里的“中文分词相关工具”下，该版本无需注册，非商用免费使用一年，下载地址是： http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar 　　关于ICTCLAS2010共享版的详细情况，可以参考张华平老师博客中的这篇文章：《发布ICTCLAS2010共享版-无需注册，非商用免费1年》 　　更多关于中文信息处理及中文分词的问题可以参考张老师的博客：http://hi.baidu.com/drkevinzhang 　　这个博客虽然刚刚建立不久，但是张老师已经提供了一些很不错的自然语言处理方面的有用资源，非常值得关注。 注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn 本文链接地址：http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010 相关文章: 百度搜索研发部专场招聘会——3月26日（周六） 中文分词入门之文献 摘录：祖国应该做海外华人更好的娘家-新马之旅观感 LDC上免费的中文信息处理资源 中文分词入门之最大匹配法扩展2 中文分词入门之篇外 中文分词入门之字标注法2 中文分词入门之字标注法1 中文分词入门之资源 Matrix67：漫话中文分词算法
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%99%be%e5%ba%a6%e6%90%9c%e7%b4%a2%e7%a0%94%e5%8f%91%e9%83%a8%e4%b8%93%e5%9c%ba%e6%8b%9b%e8%81%98%e4%bc%9a-3%e6%9c%8826%e6%97%a5%e5%91%a8%e5%85%ad' rel='bookmark' title='百度搜索研发部专场招聘会——3月26日（周六）'>百度搜索研发部专场招聘会——3月26日（周六）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e6%91%98%e5%bd%95-%e7%a5%96%e5%9b%bd%e5%ba%94%e8%af%a5%e5%81%9a%e6%b5%b7%e5%a4%96%e5%8d%8e%e4%ba%ba%e6%9b%b4%e5%a5%bd%e7%9a%84%e5%a8%98%e5%ae%b6-%e6%96%b0%e9%a9%ac%e4%b9%8b%e6%97%85%e8%a7%82' rel='bookmark' title='摘录：祖国应该做海外华人更好的娘家-新马之旅观感'>摘录：祖国应该做海外华人更好的娘家-新马之旅观感</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信，希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本，这个版本对于研究人员非商业免费使用一年，所以在这里做个推荐，非常感谢张老师对于中文信息处理领域的贡献!<span id="more-3356"></span><br />
　　我已将下载链接放在了“<a href="http://www.52nlp.cn/resources">资源</a>”页面里的“中文分词相关工具”下，该版本无需注册，非商用免费使用一年，下载地址是：<br />
<a href="http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar"target=_blank>http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar</a><br />
　　关于ICTCLAS2010共享版的详细情况，可以参考张华平老师博客中的这篇文章：《<a href="http://hi.baidu.com/drkevinzhang/blog/item/f9e5752782bf8c27d50742cd.html"target=_blank>发布ICTCLAS2010共享版-无需注册，非商用免费1年</a>》<br />
　　更多关于中文信息处理及中文分词的问题可以参考张老师的博客：<a href="http://hi.baidu.com/drkevinzhang"target=_blank>http://hi.baidu.com/drkevinzhang</a><br />
　　这个博客虽然刚刚建立不久，但是张老师已经提供了一些很不错的自然语言处理方面的有用资源，非常值得关注。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010">http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e7%99%be%e5%ba%a6%e6%90%9c%e7%b4%a2%e7%a0%94%e5%8f%91%e9%83%a8%e4%b8%93%e5%9c%ba%e6%8b%9b%e8%81%98%e4%bc%9a-3%e6%9c%8826%e6%97%a5%e5%91%a8%e5%85%ad' rel='bookmark' title='百度搜索研发部专场招聘会——3月26日（周六）'>百度搜索研发部专场招聘会——3月26日（周六）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e6%91%98%e5%bd%95-%e7%a5%96%e5%9b%bd%e5%ba%94%e8%af%a5%e5%81%9a%e6%b5%b7%e5%a4%96%e5%8d%8e%e4%ba%ba%e6%9b%b4%e5%a5%bd%e7%9a%84%e5%a8%98%e5%ae%b6-%e6%96%b0%e9%a9%ac%e4%b9%8b%e6%97%85%e8%a7%82' rel='bookmark' title='摘录：祖国应该做海外华人更好的娘家-新马之旅观感'>摘录：祖国应该做海外华人更好的娘家-新马之旅观感</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010/feed</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>中文分词入门之最大匹配法扩展2</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952#comments</comments>
		<pubDate>Sun, 24 Jan 2010 16:04:41 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[蔡志浩]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2997</guid>
		<description><![CDATA[　　在进入正题之前，还是先说两句篇外话，上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg，相似的，python版mmseg的作者fakechris也在这里留了言： 你好，我是pychseg的作者，一直没时间加上download，大家check out源代码就可以用了。。。 　　我才发现在pychseg的”Source”页面下有一个通过命令行方式获取其代码方式： svn checkout http://pychseg.googlecode.com/svn/trunk/ pychseg-read-only 　　对pychseg感兴趣的读者可以先装一个svn，再通过上述命令行方式获取源代码。这里非常感谢fakechris，不过他建议大家： 　　另外coreseek里带的c版本的mmseg很快而且也有python接口，推荐大家用那个了 　　Coreseek 是专业的全文检索技术供应商:北京选择软件科技有限公司，在他们主页的“开放源码”页面里，提供了包括改进的CRF++及Sphinx源代码，同时包括LibMMSeg,一个采用C++开发mmseg版本，不过fakechri提到的应该是“全文搜索 3.1-rc1”里的mmseg，其增加了win32 only的python接口，以下我们介绍的是LibMMSeg。 　　LibMMSeg有一个简介页面，关于安装及使用说明及词典格式都有介绍，这里不再详述。再说一点题外话，LibMMSeg作者李沐南大哥，对中文分词这一块儿研究的很深刻，有兴趣的读者可以看看他博客中关于“中文分词”的一些文章，尤其是利用CRF进行字标注中文分词，他做了很多实验及改进。 　　由于我想在SIGHAN Bakeoff提供的中文分词语料库上做个测试，所以对LibMMSeg作了一点点修改。测试环境是ubuntu9.04,下载LibMMSeg的压缩包 mmseg-0.7.3.tar.gz后，对其解压。LibMMSeg默认的输出形式类似“中文/x 分词/x ..”，这里首先修改 ./src目录下的mmseg_main.cpp文件，将其228行及245行： 　　printf(“%*.*s/x “,symlen,symlen,tok); 修改为： 　　printf(“%*.*s “,symlen,symlen,tok); 将第249行： 　　printf(“\n\nWord Splite took: %d ms.\n”, srch); 修改为： 　　cerr 相关文章: 中文分词入门之篇外 中文分词入门之资源 中文分词入门之最大匹配法扩展1 中文分词入门之字标注法2 &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-5' rel='bookmark' title='HMM学习最佳范例五：前向算法5'>HMM学习最佳范例五：前向算法5</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　在进入正题之前，还是先说两句篇外话，上一篇《<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E7%AF%87%E5%A4%96">中文分词入门之篇外</a>》中说到了solol提供了Java版的mmseg，相似的，python版mmseg的作者fakechris也在这里留了言： </p>
<blockquote><p>你好，我是pychseg的作者，一直没时间加上download，大家check out源代码就可以用了。。。</p></blockquote>
<p><span id="more-2997"></span><br />
　　我才发现在pychseg的”Source”页面下有一个通过命令行方式获取其代码方式：<br />
svn checkout http://pychseg.googlecode.com/svn/trunk/ pychseg-read-only<br />
　　对<a href="http://code.google.com/p/pychseg/"target=_blank>pychseg</a>感兴趣的读者可以先装一个svn，再通过上述命令行方式获取源代码。这里非常感谢fakechris，不过他建议大家：</p>
<blockquote><p>　　另外coreseek里带的c版本的mmseg很快而且也有python接口，推荐大家用那个了</p></blockquote>
<p>　　Coreseek 是专业的全文检索技术供应商:<a href="http://www.coreseek.cn"target=_blank>北京选择软件科技有限公司</a>，在他们主页的“开放源码”页面里，提供了包括改进的CRF++及Sphinx源代码，同时包括LibMMSeg,一个采用C++开发mmseg版本，不过fakechri提到的应该是“全文搜索 3.1-rc1”里的mmseg，其增加了win32 only的python接口，以下我们介绍的是LibMMSeg。<br />
　　LibMMSeg有一个简介页面，关于安装及使用说明及词典格式都有介绍，这里不再详述。再说一点题外话，LibMMSeg作者李沐南大哥，对中文分词这一块儿研究的很深刻，有兴趣的读者可以看看他博客中关于“<a href="http://nzinfo.spaces.live.com/?_c11_BlogPart_BlogPart=blogview&#038;_c=BlogPart&#038;_c02_owner=1%3f&#038;partqs=cat%3d%25e4%25b8%25ad%25e6%2596%2587%25e5%2588%2586%25e8%25af%258d"target=_blank>中文分词</a>”的一些文章，尤其是利用CRF进行字标注中文分词，他做了很多实验及改进。<br />
　　由于我想在SIGHAN Bakeoff提供的中文分词语料库上做个测试，所以对LibMMSeg作了一点点修改。测试环境是ubuntu9.04,下载LibMMSeg的压缩包 mmseg-0.7.3.tar.gz后，对其解压。LibMMSeg默认的输出形式类似“中文/x 分词/x ..”，这里首先修改 ./src目录下的mmseg_main.cpp文件，将其228行及245行：<br />
　　printf(“%*.*s/x “,symlen,symlen,tok);<br />
修改为：<br />
　　printf(“%*.*s “,symlen,symlen,tok);<br />
将第249行：<br />
　　printf(“\n\nWord Splite took: %d ms.\n”, srch);<br />
修改为：<br />
　　cerr << "\n\nWord Splite took: " << srch << " ms.\n";<br />
然后就可以“./configure &#038;&#038; make &#038;&#038; make install”了，不过我make的时候遇到了如下的错误：</p>
<blockquote><p>&#8230;<br />
css/UnigramCorpusReader.cpp:89: error: &#8216;strncmp&#8217; was not declared in this scope<br />
make[2]: *** [UnigramCorpusReader.lo] Error 1<br />
&#8230;</p></blockquote>
<p>　　查了一下，似乎是g++版本高的缘故，解决方案有两个，降低g++版本，或者修改src/css目录下UnigramCorpusReader.cpp 文件,加上：<br />
　　#include &lt;string.h&gt;<br />
　　然后重新 make,即可通过。编译完毕后，会在./src目录下产生一个mmseg的可执行文件。<br />
　　mmseg-0.7.3里有一个data目录，在data目录里，包括了一个LibMMSeg提供的默认词典文件unigram.txt，关于该词典文件格式的说明，请参考其说明页面，这里我们仅利用该词典作相关的中文分词实验，不做任何扩充。需要注意的是，unigram.txt 必须为UTF-8编码。首先构造一个二进制词典：<br />
　　../src/mmseg -u unigram.txt<br />
　　该命令执行后，将会产生一个名为unigram.txt.uni的文件，将其改名为uni.lib，完成词典的构造。<br />
　　然后进行中文分词，我们首先将北大提供的人民日报语料库测试集pku_test.utf8拷贝到data目录下,然后执行命令：<br />
　　../src/mmseg -d . pku_test.utf8 > pku_test.mmseg.result<br />
　　终端上会显示分词所用的时间，而pku_test.mmseg.result则保存了分词结果，把这个结果拷贝回icwb2-data/gold目录下，利用评分脚本对其结果进行打分：<br />
　　../scripts/score pku_training_words.utf8 pku_test_gold.utf8 pku_test.mmseg.result > mmseg.score<br />
　　mmseg.score的最终结果如下：</p>
<blockquote><p>&#8230;<br />
=== SUMMARY:<br />
=== TOTAL INSERTIONS:   5512<br />
=== TOTAL DELETIONS:    1435<br />
=== TOTAL SUBSTITUTIONS:        6981<br />
=== TOTAL NCHANGE:      13928<br />
=== TOTAL TRUE WORD COUNT:      104372<br />
=== TOTAL TEST WORD COUNT:      108449<br />
=== TOTAL TRUE WORDS RECALL:    0.919<br />
=== TOTAL TEST WORDS PRECISION: 0.885<br />
=== F MEASURE:  0.902<br />
=== OOV Rate:   0.058<br />
=== OOV Recall Rate:    0.487<br />
=== IV Recall Rate:     0.946<br />
###     pku_test.mmseg.result   5512    1435    6981    13928   104372  108449  0.919   0.885   0.902   0.058   0.487 0.946</p></blockquote>
<p>　　说明了本次测试中文分词结果的召回率为91.9%，准确率为88.5%，F值为90.2%。如果读者还记着SIGHAN Bakeoff提供的基于最大匹配法的中文分词器mwseg.pl的结果的话，那么这次测试的结果有所提高。不过问题再于二者使用的是不同的词典资源，仍不具有可比性：使用LibMMseg自带的词典资源可称之为开放测试，而仅采用icwb2-data里的词典资源则称之为封闭测试。有兴趣的读者可以根据icwb2-data里提供的人民日报训练语料库统计单个汉字词的词频及其他词条，构造成LibMMseg的词典文件形式，再重复上述实验，也许会得到更有说服力的结果。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之最大匹配法扩展2">http://www.52nlp.cn/中文分词入门之最大匹配法扩展2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-five-forward-algorithm-5' rel='bookmark' title='HMM学习最佳范例五：前向算法5'>HMM学习最佳范例五：前向算法5</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>中文分词入门之篇外</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96#comments</comments>
		<pubDate>Thu, 21 Jan 2010 13:58:55 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2988</guid>
		<description><![CDATA[　　这篇不是计划内的“中文分词入门系列”，所以称之为篇外。上一篇《中文分词入门之最大匹配法扩展1》提到了MMSEG国内的一些情况： 　　不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。 　　没想到《MMSeg分词算法简述》的原作者solol和我取得了联系，而leeing也留了言。难能可贵的是，由于solol.org目前已经关闭，而Google Group被墙，Java版的MMSEG代码目前已无法下载，solol希望通过52nlp这个途径提供给大家，这里非常感谢solol的分享！目前我已将Java版的代码上传到网络硬盘，同时会在”资源“页面里做个备注，有需要的读者可以在这里下载：mmseg-v0.3.zip。 　　同时，我发现python版的mmseg目前也无法下载，这个基于python的中文分词项目放在Google code上：pychseg，但是在”Downloads“页面里却没有可下载的版本，不知是何原因？如果哪位读者知情或者手头上有这个版本，欢迎和我联系，或者在这里留个言，希望python版本的MMSEG也能像Java版本一样，能共享给大家。此处先谢过了！ 注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn 本文链接地址：http://www.52nlp.cn/中文分词入门之篇外 相关文章: 中文分词入门之最大匹配法扩展2 中文分词入门之最大匹配法扩展1 中文分词入门之资源 Matrix67：漫话中文分词算法 中文分词入门之字标注法2 中文分词入门之字标注法1 中文分词入门之文献 推荐张华平老师的中文分词工具ICTCLAS2010 中文分词入门之最大匹配法 如何学习自然语言处理
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='如何学习自然语言处理'>如何学习自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这篇不是计划内的“中文分词入门系列”，所以称之为篇外。上一篇《<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E6%9C%80%E5%A4%A7%E5%8C%B9%E9%85%8D%E6%B3%95%E6%89%A9%E5%B1%951"target=_blank>中文分词入门之最大匹配法扩展1</a>》提到了MMSEG国内的一些情况：</p>
<blockquote><p>　　不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。</p></blockquote>
<p><span id="more-2988"></span><br />
　　没想到《MMSeg分词算法简述》的原作者solol和我取得了联系，而leeing也留了言。难能可贵的是，由于solol.org目前已经关闭，而Google Group被墙，Java版的MMSEG代码目前已无法下载，solol希望通过52nlp这个途径提供给大家，这里非常感谢solol的分享！目前我已将Java版的代码上传到网络硬盘，同时会在”资源“页面里做个备注，有需要的读者可以在这里下载：<a href="http://www.xun6.com/file/43e341b16/mmseg-v0.3.zip.html"target=_blank>mmseg-v0.3.zip</a>。<br />
　　同时，我发现python版的mmseg目前也无法下载，这个基于python的中文分词项目放在Google code上：<a href="http://code.google.com/p/pychseg/"target=_blank>pychseg</a>，但是在”Downloads“页面里却没有可下载的版本，不知是何原因？如果哪位读者知情或者手头上有这个版本，欢迎和我联系，或者在这里留个言，希望python版本的MMSEG也能像Java版本一样，能共享给大家。此处先谢过了！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之篇外">http://www.52nlp.cn/中文分词入门之篇外</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='如何学习自然语言处理'>如何学习自然语言处理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>中文分词入门之最大匹配法扩展1</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951#comments</comments>
		<pubDate>Mon, 18 Jan 2010 15:52:45 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[蔡志浩]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2976</guid>
		<description><![CDATA[　　这里曾写过《中文分词入门之最大匹配法》，并且获得了很高的关注度，不过现在回头来看，这个方法只是最初级的中文分词匹配方法。事实上，很多学者都基于简单的中文分词匹配法做了扩展，其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”，在这篇文章的页面中，不仅介绍了相关的中文分词算法，并且提供了一个C版本的mmseg供研究使用，目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版，影响甚广。 　　此文是英文版本，建议有条件的读者直接读原文。不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。以下我先从自己理解的角度介绍一下该算法，然后再运行一个C++版本的mmseg程序作为示例，大致需要两节。 　　MMSEG中文分词系统的可以由一句话总结：The system consisted of a lexicon, two matching algorithms, and four ambiguity resolution rules（该系统包括一个词典，两种匹配算法，以及四种歧义消解规则）： 1、 词典（The Lexicon）： 　　分两种形式，对于单个汉字的汉语词，除了汉字本身外，还包括其统计频率（这个频率属于先验知识，可以来自于已经人工分好词的训练语料库），而对于二字长及以上的汉语词，只要词条本身就可以了。 2、 匹配算法（Matching &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这里曾写过《<a href="http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation"target=_blank>中文分词入门之最大匹配法</a>》，并且获得了很高的关注度，不过现在回头来看，这个方法只是最初级的中文分词匹配方法。事实上，很多学者都基于简单的中文分词匹配法做了扩展，其中比较有名的就是台湾蔡志浩老师1996年写的“<a href="http://technology.chtsai.org/mmseg/"target=_blank>MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm</a>”，在这篇文章的页面中，不仅介绍了相关的中文分词算法，并且提供了一个C版本的mmseg供研究使用，目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版，影响甚广。<span id="more-2976"></span><br />
　　此文是英文版本，建议有条件的读者直接读原文。不过国内也有该文的简介文章：《<a href="http://nebulaeagle.blogbus.com/logs/18828195.html"target=_blank>MMSeg分词算法简述</a>》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《<a href="http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/"target=_blank>MMSEG 中文分词算法</a>》，我粗略的读了一下，感觉翻译的不错。以下我先从自己理解的角度介绍一下该算法，然后再运行一个C++版本的mmseg程序作为示例，大致需要两节。<br />
　　MMSEG中文分词系统的可以由一句话总结：The system consisted of a lexicon, two matching algorithms, and four ambiguity resolution rules（该系统包括一个词典，两种匹配算法，以及四种歧义消解规则）：<br />
<strong>1、	词典（The Lexicon）：</strong><br />
　　分两种形式，对于单个汉字的汉语词，除了汉字本身外，还包括其统计频率（这个频率属于先验知识，可以来自于已经人工分好词的训练语料库），而对于二字长及以上的汉语词，只要词条本身就可以了。<br />
<strong>2、	匹配算法（Matching Algorithm）：</strong><br />
　a) 简单匹配:对于字符串中的汉字Cn，用词典匹配以Cn开头的子串并查找所有可能的匹配；<br />
　b) 复杂匹配:对于字符串中的汉字Cn，查找所有可能以Cn开头的三词chunks，无论第一个汉语词是否有歧义。<br />
<strong>3、歧义消解规则（Ambiguity Resolution Rules）：</strong><br />
规则一：最大匹配(Maximum matching)<br />
　a) 简单最大匹配算法,也就是我们常说的最大匹配法，不过作者采取的是正向匹配，并且按长度从小到大搜索词典：假设C1,C2,….代表一个字符串中的汉字，首先搜索词典，看 _C1_是否为一个单字组成的词语，然后搜索 _C1C2_来看是否为两个汉字组成的词语，以此类推，直至找到字典中最长的匹配。<br />
　b) 复杂最大匹配算法,由Chen 和Liu（1992）提出，其核心的假设是：The most plausible segmentation is the three-word chunk with maximum length. 请注意three-word chunk，可以将其翻译为“三词语块”，这也是MMSEG中比较核心的一个概念，这个最大匹配规则考虑问题比较全面，在对句子中的某个词进行切分时，如果有歧义拿不定主意，就再向后展望两个汉语词，并且找出所有可能的“三词语块”。例如，对于如下的“三词语块”，请注意括号中是注明的语块长度（以汉语单字为基本单位）：</p>
<blockquote><p>1. _C1_ _C2_ _C3C4_（4）<br />
2. _C1C2_ _C3C4_ _C5_（5）<br />
3. _C1C2_ _C3C4_ _C5C6_（6）</p></blockquote>
<p>　　最大长度的“三词语块”是第3个，所以其第一汉语词_C1C2_将被作为正确的分词形式。以此类推，接下来我们从C3开始，找出所有可能的“三词语块”，重复上述规则，直到句子的最后一个词被划分。直观一点，对于以“眼”开头的如下5个“三词语块”,利用该规则，则“眼看”是正确的词语划分：</p>
<blockquote><p>1.眼看 就要 来了（6）<br />
2.眼看 就要 来（5）<br />
3.眼看 就 要(4)<br />
4.眼 看 就要(4)<br />
5.眼 看 就(3)</p></blockquote>
<p>规则二：最大平均词长（Largest average word length）<br />
　　在句子的末尾，很可能得到的“三词语块”只有一个或两个词（其他位置补空），例如，对于如下两个“三词语块”，他们拥有同样的长度：</p>
<blockquote><p>1. _C1_ _C2_ _C3_（平均词长=1）<br />
2. _C1C2C3_（平均词长=3）</p></blockquote>
<p>　　这时规则1就无法解决其歧义消解问题，因此引入规则2：最大平均词长，也就是从这些语块中找出平均词长最大的语块，并选取其第一词语作为正确的词语切分形式。这个规则的前提假设是：It is more likely to encounter multi-character words than one-character words（在句子中遇到多字-词语的情况比单字-词语更有可能）. 因此，上述两个“三词语块”中第二个_C1C2C3_就是最佳候选。直观一点，对于如下位于句尾三种形式的“三词语块”：</p>
<blockquote><p>1.国际化（平均词长=3）<br />
2.国际 化（平均词长=1.5）<br />
3.国 际 化（平均词长=1）</p></blockquote>
<p>　　在规则1无法求解的情况下，根据规则2，则“国际化”为最佳候选语块，因此该语块的第一个词“国际化”就是最佳的分词形式。</p>
<p>规则三：最小词长方差（Smallest variance of word lengths）<br />
　　还有一些歧义是规则一和规则二无法解决的，例如，如下的两个“三词语块”拥有同样的长度和同样的平均词长：</p>
<blockquote><p>1. _C1C2_ _C3C4_ _C5C6_<br />
2. _C1C2C3_ _C4_ _C5C6_</p></blockquote>
<p>　　因此引入规则三：最小词长方差，也就是找出词长方差最小的语块，并选取其第一个词语作为正确的词语切分形式。在概率论和统计学中，一个随机变量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离。因此该规则的前提假设是：Word lengths are usually evenly distributed（句子中的词语长度经常是均匀分布的）。直观来说，对于如下两个“三词语块”：</p>
<blockquote><p>1.研究 生命 起源<br />
2.研究生 命 起源</p></blockquote>
<p>其长度为6，平均词长为2，规则一和规则二无能无力，利用规则三：<br />
　语块1的方差 = ((2-2)^2+(2-2)^2+(2-2)^2)/3 = 0<br />
　语块2的方差 = ((3-2)^2+(1-2)^2+(2-2)^2)/3 = 2/3<br />
则语块1为最佳候选，因此该语块的第一个词“研究”为最佳的分词形式。</p>
<p>规则四：最大单字词语语素自由度之和（Largest sum of degree of morphemic freedom of one-character words）：<br />
　　如下所示，例子中的两个“三词语块”拥有同样的长度、平均词长及方差，因此上述三个规则都无法解决其歧义消解问题：</p>
<blockquote><p>1. _C1_ _C2_ _C3C4_<br />
2. _C1_ _C2C3_ _C4_</p></blockquote>
<p>　　这两个语块都包括了两个单字（one-character）词语和一个两字（two-character）词语，规则四主要关注其中的单字词语。直观来看，有些汉字很少作为词语出现，而另一些汉字则常常作为词语出现，从统计角度来看，在语料库中出现频率高的汉字就很可能是一个单字词语，反之可能性就小。计算单词词语语素自由度之和的公式是对“三词语块”中的单字词语频率取对数并求和（The formula used to calculate the sum of degree of morphemic freedom is to sum log(frequency) of all one-character word(s) in a chunk.）规则四则选取其中和最大的语块，并将该语块的第一词语作为最佳的词语切分形式。</p>
<p>　　关于MMSEG中文分词系统的框架就介绍到此，需要指出的是：</p>
<blockquote><p>“It has to be noted that MMSEG was not designed to be a “professional level” system whose goal is 100% correct identification. Rather, MMSEG should be viewed as a general platform on which new ambiguity resolution algorithms can be tested.”</p></blockquote>
<p>　　所以，不要认为有了MMSEG就可以解决中文分词的问题，更应该将MMSEG视为一个基本的平台，在该平台的基础上，有兴趣的读者可以尝试添加新的歧义消解算法以解决中文分词中的难点问题。</p>
<p>未完待续：<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E6%9C%80%E5%A4%A7%E5%8C%B9%E9%85%8D%E6%B3%95%E6%89%A9%E5%B1%952">最大匹配法扩展2</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之最大匹配法扩展1">http://www.52nlp.cn/中文分词入门之最大匹配法扩展1</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/matrix67-%e6%bc%ab%e8%af%9d%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%ae%97%e6%b3%95' rel='bookmark' title='Matrix67：漫话中文分词算法'>Matrix67：漫话中文分词算法</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>中文分词入门之字标注法2</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952#comments</comments>
		<pubDate>Sun, 10 Jan 2010 08:32:34 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[citar]]></category>
		<category><![CDATA[hmm]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[词性标注]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2952</guid>
		<description><![CDATA[　　虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢？莫非是由于其诞生之初就采用了最大熵模型的缘故。但是，在词性标注中，Citar实现的是TnT中所采用的HMM trigram方法，其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提，本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。 　　我们以微软亚洲研究院提供的中文分词语料为例，采用2-tag(B,I)标记集，只针utf-8编码文本。首先准备训练语料，原始训练集msr_training.utf8的形式是人工分好词的中文句子形式： “ 人们 常 说 生活 是 一 部 教科书 ， 而 血 与 火 的 战争 更 是 不可多得 的 教科书 ， 她 确实 是 名副其实 的 ‘ 我 的 大学 ’。 “ 心 静 渐 &#8230; <a href="http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢？莫非是由于其诞生之初就采用了最大熵模型的缘故。但是，在词性标注中，Citar实现的是TnT中所采用的HMM trigram方法，其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提，本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。<span id="more-2952"></span><br />
　　我们以微软亚洲研究院提供的中文分词语料为例，采用2-tag(B,I)标记集，只针utf-8编码文本。首先准备训练语料，原始训练集msr_training.utf8的形式是人工分好词的中文句子形式：</p>
<blockquote><p>“  人们  常  说  生活  是  一  部  教科书  ，  而  血  与  火  的  战争  更  是  不可多得  的  教科书  ，  她  确实  是  名副其实  的  ‘  我  的  大学  ’。<br />
“  心  静  渐  知  春  似  海  ，  花  深  每  觉  影  生  香  。<br />
…</p></blockquote>
<p>　　需要将其转换为字标注形式，这里52nlp利用perl写了一个简单的2-tag转换程序<a href="http://www.52nlp.org/wordseg/charatagging/CharacterTagging.txt"target=_blank>CharacterTagging.pl</a>,不过请注意这个程序仅处理utf-8编码的文本：<br />
　　./CharacterTagging.pl -i msr_training.utf8 -o msr_training.tagging.utf8<br />
　　其中-i指示的是输入文件，-o指示的是输出文件，msr_training.tagging.utf8<br />
的内容示例如下：</p>
<blockquote><p>“/B 人/B 们/I 常/B 说/B 生/B 活/I 是/B 一/B 部/B 教/B 科/I 书/I ，/B 而/B 血/ 与/B 火/B 的/B 战/B 争/I 更/B 是/B 不/B 可/I 多/I 得/I 的/B 教/B 科/I 书/I ，/B 她/B 确/B 实/I 是/B 名/B 副/I 其/I 实/I 的/B ‘/B 我/B 的/B 大/B 学/I ’/B /B<br />
“/B 心/B 静/B 渐/B 知/B 春/B 似/B 海/B ，/B 花/B 深/B 每/B 觉/B 影/B 生/B 香/ 。/B<br />
…</p></blockquote>
<p>　　有了这个2-tag的字标注训练语料库，就可以利用Citar中编译好的train来训练字标注器所需的输入文件了：<br />
　　./train msr_training.tagging.utf8 msr_lex msr_ngram<br />
　　其中msr_lex包含了5000多个汉字与其标记的共同出现频率，形式如下：</p>
<blockquote><p>锶 B 4<br />
薛 B 97<br />
铜 B 114 I 26<br />
佛 B 142 I 144<br />
榫 B 2<br />
觚 B 1<br />
萋 B 2 I 8<br />
钮 B 4 I 7<br />
…</p></blockquote>
<p>　　msr_ngram则是标记本身及其之间的共现频率，形式如下：</p>
<blockquote><p>B 2368391<br />
I 1682056<br />
<START> 173836<br />
<END> 86918<br />
B B 1027319<br />
I B 1254154<br />
B <END> 86017<br />
I I 427001<br />
B I 1255055<br />
<START> B 86918<br />
I <END> 901<br />
<START> <START> 86918<br />
&#8230;</p></blockquote>
<p>注：由于没有尖括号在Wordpress中被屏蔽，以上内容有误，谢谢读者bflout的提醒，以下重新附上msr_ngram:</p>
<div class="codecolorer-container c default" style="overflow:auto;white-space:nowrap;border:1px solid #9F9F9F;width:435px;height:300px;"><table cellspacing="0" cellpadding="0"><tbody><tr><td style="padding:5px;text-align:center;color:#888888;background-color:#EEEEEE;border-right: 1px solid #9F9F9F;font: normal 12px/1.4em Monaco, Lucida Console, monospace;"><div>1<br />2<br />3<br />4<br />5<br />6<br />7<br />8<br />9<br />10<br />11<br />12<br />13<br />14<br />15<br />16<br />17<br />18<br />19<br />20<br />21<br />22<br />23<br />24<br />25<br />26<br />27<br />28<br /></div></td><td><div class="c codecolorer" style="padding:5px;font:normal 12px/1.4em Monaco, Lucida Console, monospace;white-space:nowrap">B <span style="color: #0000dd;">2368391</span><br />
I <span style="color: #0000dd;">1682056</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">173836</span><br />
<span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86918</span><br />
B B <span style="color: #0000dd;">1027319</span><br />
I B <span style="color: #0000dd;">1254154</span><br />
B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86017</span><br />
I I <span style="color: #0000dd;">427001</span><br />
B I <span style="color: #0000dd;">1255055</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #0000dd;">86918</span><br />
I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">901</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86918</span><br />
B I B <span style="color: #0000dd;">1039293</span><br />
B B B <span style="color: #0000dd;">408801</span><br />
I I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">285</span><br />
B B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">18403</span><br />
B I I <span style="color: #0000dd;">215146</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B I <span style="color: #0000dd;">60460</span><br />
I I B <span style="color: #0000dd;">214861</span><br />
I B I <span style="color: #0000dd;">594480</span><br />
B B I <span style="color: #0000dd;">600115</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #0000dd;">86918</span><br />
I I I <span style="color: #0000dd;">211855</span><br />
B I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">616</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B B <span style="color: #0000dd;">26449</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">9</span><br />
I B B <span style="color: #0000dd;">592069</span><br />
I B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">67605</span></div></td></tr></tbody></table></div>
<p>　　注意，这两个文件都很小，msr_lex只有64k,而msr_ngram则不到1k，所占用资源极小。<br />
　　在利用Citar的tag进行标注之前，需要对测试集msr_test.utf8的字符进行切分，在<a href="http://www.itl.nist.gov/iad/mig/tests/mt/2009/"target=_blank>NIST2009</a>机器翻译的评测主页的底部提供了这个工具 :splitUTF8Characters.p：<br />
　　./splitUTF8Characters.pl -i msr_test.utf8 -o msr_test.split.utf8<br />
　　msr_test.utf8的形式如下：</p>
<blockquote><p>扬帆远东做与中国合作的先行<br />
希腊的经济结构较特殊。<br />
&#8230;</p></blockquote>
<p>　　切分后的msr_test.split.utf8形式如下：</p>
<blockquote><p> 扬  帆  远  东  做  与  中  国  合  作  的  先  行<br />
 希  腊  的  经  济  结  构  较  特  殊  。<br />
 &#8230;</p></blockquote>
<p>　　有了msr_test.split.utf8，我们就可以利用Citar的tag进行字标注了：<br />
　　./tag msr_lex msr_ngram < msr_test.split.utf8 > msr_test.hmmtagging.utf8<br />
　　标注后的msr_test.hmmtagging.utf8形式如下：</p>
<blockquote><p>扬/B 帆/I 远/B 东/I 做/B 与/B 中/B 国/I 合/B 作/I 的/B 先/I 行/B<br />
希/B 腊/I 的/B 经/B 济/I 结/B 构/I 较/B 特/B 殊/I 。/B<br />
&#8230;</p></blockquote>
<p>　　最后，就是按照标记结果合并字符并去除标记了。这里52nlp利用perl写了一个简单的还原程序<a href="http://www.52nlp.org/wordseg/charatagging/Character2word.txt"target=_blank>Character2word.pl</a>,不过请注意这个程序仅处理utf-8编码的文本：<br />
　　./Character2word.pl -i msr_test.hmmtagging.utf8 -o msr_test.hmmseg.utf8<br />
　　msr_test.hmmseg.utf8既是最终的分词结果，其形式如下：</p>
<blockquote><p>扬帆 远东 做 与 中国 合作 的先 行<br />
希腊 的 经济 结构 较 特殊 。<br />
…</p></blockquote>
<p>　　当然，这个字标注中文分词的结果好坏还需要利用SIGHAN Bakeoff的score	进行评分：<br />
　　../icwb2-data/scripts/score ../icwb2-data/gold/msr_training_words.utf8 msr_test_gold.utf8  msr_test.hmmseg.utf8 > msr_hmmseg.score<br />
　　最终的评分结果在msr_hmmseg.score中，总的评分如下：</p>
<blockquote><p>…<br />
=== SUMMARY:<br />
=== TOTAL INSERTIONS:   10304<br />
=== TOTAL DELETIONS:    7030<br />
=== TOTAL SUBSTITUTIONS:        30727<br />
=== TOTAL NCHANGE:      48061<br />
=== TOTAL TRUE WORD COUNT:      106873<br />
=== TOTAL TEST WORD COUNT:      110147<br />
=== TOTAL TRUE WORDS RECALL:    0.647<br />
=== TOTAL TEST WORDS PRECISION: 0.627<br />
=== F MEASURE:  0.637<br />
=== OOV Rate:   0.026<br />
=== OOV Recall Rate:    0.181<br />
=== IV Recall Rate:     0.659<br />
###     msr_test.hmmseg.utf8    10304   7030    30727   48061   106873  110147  0.647   0.627   0.637   0.026   0.181   0.659</p></blockquote>
<p>　　结果残不忍睹，不过没关系，重要的是思想，当你明白了如何进行字标注中文分词的设计和操作之后，可以做得改进有很多，譬如增加标记集，修改Citar中不合适的未登录词处理方法，甚至重新采用其他模型等等等等。同样，52nlp也会在合适的时候介绍一下最大熵模型和条件随机场在中文分词中的应用，欢迎继续关注本博客！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之字标注法2">http://www.52nlp.cn/中文分词入门之字标注法2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

