<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 中文信息处理</title>
	<atom:link href="http://www.52nlp.cn/category/chinese-information-processing/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 21 Jul 2010 15:33:24 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>推荐张华平老师的中文分词工具ICTCLAS2010</title>
		<link>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010</link>
		<comments>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010#comments</comments>
		<pubDate>Mon, 03 May 2010 14:53:17 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[ICTCLAS]]></category>
		<category><![CDATA[ICTCLAS2010]]></category>
		<category><![CDATA[张华平]]></category>
		<category><![CDATA[自然语言处理]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3356</guid>
		<description><![CDATA[　　在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信，希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本，这个版本对于研究人员非商业免费使用一年，所以在这里做个推荐，非常感谢张老师对于中文信息处理领域的贡献!
　　我已将下载链接放在了“资源”页面里的“中文分词相关工具”下，该版本无需注册，非商用免费使用一年，下载地址是：
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
　　关于ICTCLAS2010共享版的详细情况，可以参考张华平老师博客中的这篇文章：《发布ICTCLAS2010共享版-无需注册，非商用免费1年》
　　更多关于中文信息处理及中文分词的问题可以参考张老师的博客：http://hi.baidu.com/drkevinzhang
　　这个博客虽然刚刚建立不久，但是张老师已经提供了一些很不错的自然语言处理方面的有用资源，非常值得关注。
注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010










相关文章:中文分词入门之文献
中文分词入门之最大匹配法扩展2
中文分词入门之篇外
中文分词入门之最大匹配法扩展1
中文分词入门之字标注法2
中文分词入门之字标注法1
中文分词入门之资源
LDC上免费的中文信息处理资源
基于字标注的中文分词方法
中文分词入门之最大匹配法



相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　在国内的自然语言处理领域，估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了，所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信，希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本，这个版本对于研究人员非商业免费使用一年，所以在这里做个推荐，非常感谢张老师对于中文信息处理领域的贡献!<span id="more-3356"></span><br />
　　我已将下载链接放在了“<a href="http://www.52nlp.cn/resources">资源</a>”页面里的“中文分词相关工具”下，该版本无需注册，非商用免费使用一年，下载地址是：<br />
<a href="http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar"target=_blank>http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar</a><br />
　　关于ICTCLAS2010共享版的详细情况，可以参考张华平老师博客中的这篇文章：《<a href="http://hi.baidu.com/drkevinzhang/blog/item/f9e5752782bf8c27d50742cd.html"target=_blank>发布ICTCLAS2010共享版-无需注册，非商用免费1年</a>》<br />
　　更多关于中文信息处理及中文分词的问题可以参考张老师的博客：<a href="http://hi.baidu.com/drkevinzhang"target=_blank>http://hi.baidu.com/drkevinzhang</a><br />
　　这个博客虽然刚刚建立不久，但是张老师已经提供了一些很不错的自然语言处理方面的有用资源，非常值得关注。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010">http://www.52nlp.cn/推荐张华平老师的中文分词工具-ictclas2010</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010/feed</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>中文分词入门之最大匹配法扩展2</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952#comments</comments>
		<pubDate>Sun, 24 Jan 2010 16:04:41 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[蔡志浩]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2997</guid>
		<description><![CDATA[　　在进入正题之前，还是先说两句篇外话，上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg，相似的，python版mmseg的作者fakechris也在这里留了言： 
你好，我是pychseg的作者，一直没时间加上download，大家check out源代码就可以用了。。。

　　我才发现在pychseg的&#8221;Source&#8221;页面下有一个通过命令行方式获取其代码方式：
svn checkout http://pychseg.googlecode.com/svn/trunk/ pychseg-read-only
　　对pychseg感兴趣的读者可以先装一个svn，再通过上述命令行方式获取源代码。这里非常感谢fakechris，不过他建议大家：
　　另外coreseek里带的c版本的mmseg很快而且也有python接口，推荐大家用那个了
　　Coreseek 是专业的全文检索技术供应商:北京选择软件科技有限公司，在他们主页的“开放源码”页面里，提供了包括改进的CRF++及Sphinx源代码，同时包括LibMMSeg,一个采用C++开发mmseg版本，不过fakechri提到的应该是“全文搜索 3.1-rc1”里的mmseg，其增加了win32 only的python接口，以下我们介绍的是LibMMSeg。
　　LibMMSeg有一个简介页面，关于安装及使用说明及词典格式都有介绍，这里不再详述。再说一点题外话，LibMMSeg作者李沐南大哥，对中文分词这一块儿研究的很深刻，有兴趣的读者可以看看他博客中关于“中文分词”的一些文章，尤其是利用CRF进行字标注中文分词，他做了很多实验及改进。
　　由于我想在SIGHAN Bakeoff提供的中文分词语料库上做个测试，所以对LibMMSeg作了一点点修改。测试环境是ubuntu9.04,下载LibMMSeg的压缩包 mmseg-0.7.3.tar.gz后，对其解压。LibMMSeg默认的输出形式类似“中文/x 分词/x ..”，这里首先修改 ./src目录下的mmseg_main.cpp文件，将其228行及245行：
　　printf(&#8220;%*.*s/x &#8220;,symlen,symlen,tok);
修改为：
　　printf(&#8220;%*.*s &#8220;,symlen,symlen,tok);
将第249行：
　　printf(&#8220;\n\nWord Splite took: %d ms.\n&#8221;, srch);
修改为：
　　cerr 







相关文章:中文分词入门之篇外
中文分词入门之最大匹配法扩展1
中文分词入门之资源
中文分词入门之字标注法1
中文分词入门之字标注法2
中文分词入门之文献
中文分词入门之最大匹配法
推荐张华平老师的中文分词工具ICTCLAS2010
Beautiful Data-统计语言模型的应用三：分词5
Beautiful Data-统计语言模型的应用三：分词7



相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d5' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词5'>Beautiful Data-统计语言模型的应用三：分词5</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　在进入正题之前，还是先说两句篇外话，上一篇《<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E7%AF%87%E5%A4%96">中文分词入门之篇外</a>》中说到了solol提供了Java版的mmseg，相似的，python版mmseg的作者fakechris也在这里留了言： </p>
<blockquote><p>你好，我是pychseg的作者，一直没时间加上download，大家check out源代码就可以用了。。。</p></blockquote>
<p><span id="more-2997"></span><br />
　　我才发现在pychseg的&#8221;Source&#8221;页面下有一个通过命令行方式获取其代码方式：<br />
svn checkout http://pychseg.googlecode.com/svn/trunk/ pychseg-read-only<br />
　　对<a href="http://code.google.com/p/pychseg/"target=_blank>pychseg</a>感兴趣的读者可以先装一个svn，再通过上述命令行方式获取源代码。这里非常感谢fakechris，不过他建议大家：</p>
<blockquote><p>　　另外coreseek里带的c版本的mmseg很快而且也有python接口，推荐大家用那个了</p></blockquote>
<p>　　Coreseek 是专业的全文检索技术供应商:<a href="http://www.coreseek.cn"target=_blank>北京选择软件科技有限公司</a>，在他们主页的“开放源码”页面里，提供了包括改进的CRF++及Sphinx源代码，同时包括LibMMSeg,一个采用C++开发mmseg版本，不过fakechri提到的应该是“全文搜索 3.1-rc1”里的mmseg，其增加了win32 only的python接口，以下我们介绍的是LibMMSeg。<br />
　　LibMMSeg有一个简介页面，关于安装及使用说明及词典格式都有介绍，这里不再详述。再说一点题外话，LibMMSeg作者李沐南大哥，对中文分词这一块儿研究的很深刻，有兴趣的读者可以看看他博客中关于“<a href="http://nzinfo.spaces.live.com/?_c11_BlogPart_BlogPart=blogview&#038;_c=BlogPart&#038;_c02_owner=1%3f&#038;partqs=cat%3d%25e4%25b8%25ad%25e6%2596%2587%25e5%2588%2586%25e8%25af%258d"target=_blank>中文分词</a>”的一些文章，尤其是利用CRF进行字标注中文分词，他做了很多实验及改进。<br />
　　由于我想在SIGHAN Bakeoff提供的中文分词语料库上做个测试，所以对LibMMSeg作了一点点修改。测试环境是ubuntu9.04,下载LibMMSeg的压缩包 mmseg-0.7.3.tar.gz后，对其解压。LibMMSeg默认的输出形式类似“中文/x 分词/x ..”，这里首先修改 ./src目录下的mmseg_main.cpp文件，将其228行及245行：<br />
　　printf(&#8220;%*.*s/x &#8220;,symlen,symlen,tok);<br />
修改为：<br />
　　printf(&#8220;%*.*s &#8220;,symlen,symlen,tok);<br />
将第249行：<br />
　　printf(&#8220;\n\nWord Splite took: %d ms.\n&#8221;, srch);<br />
修改为：<br />
　　cerr << "\n\nWord Splite took: " << srch << " ms.\n";<br />
然后就可以“./configure &#038;&#038; make &#038;&#038; make install”了，不过我make的时候遇到了如下的错误：</p>
<blockquote><p>&#8230;<br />
css/UnigramCorpusReader.cpp:89: error: &#8217;strncmp&#8217; was not declared in this scope<br />
make[2]: *** [UnigramCorpusReader.lo] Error 1<br />
&#8230;</p></blockquote>
<p>　　查了一下，似乎是g++版本高的缘故，解决方案有两个，降低g++版本，或者修改src/css目录下UnigramCorpusReader.cpp 文件,加上：<br />
　　#include &lt;string.h&gt;<br />
　　然后重新 make,即可通过。编译完毕后，会在./src目录下产生一个mmseg的可执行文件。<br />
　　mmseg-0.7.3里有一个data目录，在data目录里，包括了一个LibMMSeg提供的默认词典文件unigram.txt，关于该词典文件格式的说明，请参考其说明页面，这里我们仅利用该词典作相关的中文分词实验，不做任何扩充。需要注意的是，unigram.txt 必须为UTF-8编码。首先构造一个二进制词典：<br />
　　../src/mmseg -u unigram.txt<br />
　　该命令执行后，将会产生一个名为unigram.txt.uni的文件，将其改名为uni.lib，完成词典的构造。<br />
　　然后进行中文分词，我们首先将北大提供的人民日报语料库测试集pku_test.utf8拷贝到data目录下,然后执行命令：<br />
　　../src/mmseg -d . pku_test.utf8 > pku_test.mmseg.result<br />
　　终端上会显示分词所用的时间，而pku_test.mmseg.result则保存了分词结果，把这个结果拷贝回icwb2-data/gold目录下，利用评分脚本对其结果进行打分：<br />
　　../scripts/score pku_training_words.utf8 pku_test_gold.utf8 pku_test.mmseg.result > mmseg.score<br />
　　mmseg.score的最终结果如下：</p>
<blockquote><p>&#8230;<br />
=== SUMMARY:<br />
=== TOTAL INSERTIONS:   5512<br />
=== TOTAL DELETIONS:    1435<br />
=== TOTAL SUBSTITUTIONS:        6981<br />
=== TOTAL NCHANGE:      13928<br />
=== TOTAL TRUE WORD COUNT:      104372<br />
=== TOTAL TEST WORD COUNT:      108449<br />
=== TOTAL TRUE WORDS RECALL:    0.919<br />
=== TOTAL TEST WORDS PRECISION: 0.885<br />
=== F MEASURE:  0.902<br />
=== OOV Rate:   0.058<br />
=== OOV Recall Rate:    0.487<br />
=== IV Recall Rate:     0.946<br />
###     pku_test.mmseg.result   5512    1435    6981    13928   104372  108449  0.919   0.885   0.902   0.058   0.487 0.946</p></blockquote>
<p>　　说明了本次测试中文分词结果的召回率为91.9%，准确率为88.5%，F值为90.2%。如果读者还记着SIGHAN Bakeoff提供的基于最大匹配法的中文分词器mwseg.pl的结果的话，那么这次测试的结果有所提高。不过问题再于二者使用的是不同的词典资源，仍不具有可比性：使用LibMMseg自带的词典资源可称之为开放测试，而仅采用icwb2-data里的词典资源则称之为封闭测试。有兴趣的读者可以根据icwb2-data里提供的人民日报训练语料库统计单个汉字词的词频及其他词条，构造成LibMMseg的词典文件形式，再重复上述实验，也许会得到更有说服力的结果。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之最大匹配法扩展2">http://www.52nlp.cn/中文分词入门之最大匹配法扩展2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d5' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词5'>Beautiful Data-统计语言模型的应用三：分词5</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>中文分词入门之篇外</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96#comments</comments>
		<pubDate>Thu, 21 Jan 2010 13:58:55 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Java]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2988</guid>
		<description><![CDATA[　　这篇不是计划内的“中文分词入门系列”，所以称之为篇外。上一篇《中文分词入门之最大匹配法扩展1》提到了MMSEG国内的一些情况：
　　不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。

　　没想到《MMSeg分词算法简述》的原作者solol和我取得了联系，而leeing也留了言。难能可贵的是，由于solol.org目前已经关闭，而Google Group被墙，Java版的MMSEG代码目前已无法下载，solol希望通过52nlp这个途径提供给大家，这里非常感谢solol的分享！目前我已将Java版的代码上传到网络硬盘，同时会在”资源“页面里做个备注，有需要的读者可以在这里下载：mmseg-v0.3.zip。
　　同时，我发现python版的mmseg目前也无法下载，这个基于python的中文分词项目放在Google code上：pychseg，但是在”Downloads“页面里却没有可下载的版本，不知是何原因？如果哪位读者知情或者手头上有这个版本，欢迎和我联系，或者在这里留个言，希望python版本的MMSEG也能像Java版本一样，能共享给大家。此处先谢过了！
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/中文分词入门之篇外










相关文章:中文分词入门之最大匹配法扩展2
中文分词入门之最大匹配法扩展1
中文分词入门之资源
中文分词入门之字标注法2
中文分词入门之文献
中文分词入门之字标注法1
中文分词入门之最大匹配法
推荐张华平老师的中文分词工具ICTCLAS2010
如何学习自然语言处理
Beautiful Data-统计语言模型的应用三：分词7



相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='Permanent Link: 如何学习自然语言处理'>如何学习自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这篇不是计划内的“中文分词入门系列”，所以称之为篇外。上一篇《<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E6%9C%80%E5%A4%A7%E5%8C%B9%E9%85%8D%E6%B3%95%E6%89%A9%E5%B1%951"target=_blank>中文分词入门之最大匹配法扩展1</a>》提到了MMSEG国内的一些情况：</p>
<blockquote><p>　　不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。</p></blockquote>
<p><span id="more-2988"></span><br />
　　没想到《MMSeg分词算法简述》的原作者solol和我取得了联系，而leeing也留了言。难能可贵的是，由于solol.org目前已经关闭，而Google Group被墙，Java版的MMSEG代码目前已无法下载，solol希望通过52nlp这个途径提供给大家，这里非常感谢solol的分享！目前我已将Java版的代码上传到网络硬盘，同时会在”资源“页面里做个备注，有需要的读者可以在这里下载：<a href="http://www.xun6.com/file/43e341b16/mmseg-v0.3.zip.html"target=_blank>mmseg-v0.3.zip</a>。<br />
　　同时，我发现python版的mmseg目前也无法下载，这个基于python的中文分词项目放在Google code上：<a href="http://code.google.com/p/pychseg/"target=_blank>pychseg</a>，但是在”Downloads“页面里却没有可下载的版本，不知是何原因？如果哪位读者知情或者手头上有这个版本，欢迎和我联系，或者在这里留个言，希望python版本的MMSEG也能像Java版本一样，能共享给大家。此处先谢过了！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之篇外">http://www.52nlp.cn/中文分词入门之篇外</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='Permanent Link: 如何学习自然语言处理'>如何学习自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>中文分词入门之最大匹配法扩展1</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951#comments</comments>
		<pubDate>Mon, 18 Jan 2010 15:52:45 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[蔡志浩]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2976</guid>
		<description><![CDATA[　　这里曾写过《中文分词入门之最大匹配法》，并且获得了很高的关注度，不过现在回头来看，这个方法只是最初级的中文分词匹配方法。事实上，很多学者都基于简单的中文分词匹配法做了扩展，其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”，在这篇文章的页面中，不仅介绍了相关的中文分词算法，并且提供了一个C版本的mmseg供研究使用，目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版，影响甚广。
　　此文是英文版本，建议有条件的读者直接读原文。不过国内也有该文的简介文章：《MMSeg分词算法简述》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《MMSEG 中文分词算法》，我粗略的读了一下，感觉翻译的不错。以下我先从自己理解的角度介绍一下该算法，然后再运行一个C++版本的mmseg程序作为示例，大致需要两节。
　　MMSEG中文分词系统的可以由一句话总结：The system consisted of a lexicon, two matching algorithms, and four ambiguity resolution rules（该系统包括一个词典，两种匹配算法，以及四种歧义消解规则）：
1、	词典（The Lexicon）：
　　分两种形式，对于单个汉字的汉语词，除了汉字本身外，还包括其统计频率（这个频率属于先验知识，可以来自于已经人工分好词的训练语料库），而对于二字长及以上的汉语词，只要词条本身就可以了。
2、	匹配算法（Matching Algorithm）：
　a) 简单匹配:对于字符串中的汉字Cn，用词典匹配以Cn开头的子串并查找所有可能的匹配；
　b) 复杂匹配:对于字符串中的汉字Cn，查找所有可能以Cn开头的三词chunks，无论第一个汉语词是否有歧义。
3、歧义消解规则（Ambiguity Resolution Rules）：
规则一：最大匹配(Maximum matching)
　a) 简单最大匹配算法,也就是我们常说的最大匹配法，不过作者采取的是正向匹配，并且按长度从小到大搜索词典：假设C1,C2,….代表一个字符串中的汉字，首先搜索词典，看 _C1_是否为一个单字组成的词语，然后搜索 _C1C2_来看是否为两个汉字组成的词语，以此类推，直至找到字典中最长的匹配。
　b) 复杂最大匹配算法,由Chen 和Liu（1992）提出，其核心的假设是：The most plausible segmentation is the three-word chunk with maximum length. 请注意three-word [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　这里曾写过《<a href="http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation"target=_blank>中文分词入门之最大匹配法</a>》，并且获得了很高的关注度，不过现在回头来看，这个方法只是最初级的中文分词匹配方法。事实上，很多学者都基于简单的中文分词匹配法做了扩展，其中比较有名的就是台湾蔡志浩老师1996年写的“<a href="http://technology.chtsai.org/mmseg/"target=_blank>MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm</a>”，在这篇文章的页面中，不仅介绍了相关的中文分词算法，并且提供了一个C版本的mmseg供研究使用，目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版，影响甚广。<span id="more-2976"></span><br />
　　此文是英文版本，建议有条件的读者直接读原文。不过国内也有该文的简介文章：《<a href="http://nebulaeagle.blogbus.com/logs/18828195.html"target=_blank>MMSeg分词算法简述</a>》，原文似乎出自“www.solol.org”，但是我一直没打开这个网站，因为Java版的mmesg也是其提供的，不知道是已经关闭了还是被“墙”了。另外，leeing也翻译了全文《<a href="http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/"target=_blank>MMSEG 中文分词算法</a>》，我粗略的读了一下，感觉翻译的不错。以下我先从自己理解的角度介绍一下该算法，然后再运行一个C++版本的mmseg程序作为示例，大致需要两节。<br />
　　MMSEG中文分词系统的可以由一句话总结：The system consisted of a lexicon, two matching algorithms, and four ambiguity resolution rules（该系统包括一个词典，两种匹配算法，以及四种歧义消解规则）：<br />
<strong>1、	词典（The Lexicon）：</strong><br />
　　分两种形式，对于单个汉字的汉语词，除了汉字本身外，还包括其统计频率（这个频率属于先验知识，可以来自于已经人工分好词的训练语料库），而对于二字长及以上的汉语词，只要词条本身就可以了。<br />
<strong>2、	匹配算法（Matching Algorithm）：</strong><br />
　a) 简单匹配:对于字符串中的汉字Cn，用词典匹配以Cn开头的子串并查找所有可能的匹配；<br />
　b) 复杂匹配:对于字符串中的汉字Cn，查找所有可能以Cn开头的三词chunks，无论第一个汉语词是否有歧义。<br />
<strong>3、歧义消解规则（Ambiguity Resolution Rules）：</strong><br />
规则一：最大匹配(Maximum matching)<br />
　a) 简单最大匹配算法,也就是我们常说的最大匹配法，不过作者采取的是正向匹配，并且按长度从小到大搜索词典：假设C1,C2,….代表一个字符串中的汉字，首先搜索词典，看 _C1_是否为一个单字组成的词语，然后搜索 _C1C2_来看是否为两个汉字组成的词语，以此类推，直至找到字典中最长的匹配。<br />
　b) 复杂最大匹配算法,由Chen 和Liu（1992）提出，其核心的假设是：The most plausible segmentation is the three-word chunk with maximum length. 请注意three-word chunk，可以将其翻译为“三词语块”，这也是MMSEG中比较核心的一个概念，这个最大匹配规则考虑问题比较全面，在对句子中的某个词进行切分时，如果有歧义拿不定主意，就再向后展望两个汉语词，并且找出所有可能的“三词语块”。例如，对于如下的“三词语块”，请注意括号中是注明的语块长度（以汉语单字为基本单位）：</p>
<blockquote><p>1. _C1_ _C2_ _C3C4_（4）<br />
2. _C1C2_ _C3C4_ _C5_（5）<br />
3. _C1C2_ _C3C4_ _C5C6_（6）</p></blockquote>
<p>　　最大长度的“三词语块”是第3个，所以其第一汉语词_C1C2_将被作为正确的分词形式。以此类推，接下来我们从C3开始，找出所有可能的“三词语块”，重复上述规则，直到句子的最后一个词被划分。直观一点，对于以“眼”开头的如下5个“三词语块”,利用该规则，则“眼看”是正确的词语划分：</p>
<blockquote><p>1.眼看 就要 来了（6）<br />
2.眼看 就要 来（5）<br />
3.眼看 就 要(4)<br />
4.眼 看 就要(4)<br />
5.眼 看 就(3)</p></blockquote>
<p>规则二：最大平均词长（Largest average word length）<br />
　　在句子的末尾，很可能得到的“三词语块”只有一个或两个词（其他位置补空），例如，对于如下两个“三词语块”，他们拥有同样的长度：</p>
<blockquote><p>1. _C1_ _C2_ _C3_（平均词长=1）<br />
2. _C1C2C3_（平均词长=3）</p></blockquote>
<p>　　这时规则1就无法解决其歧义消解问题，因此引入规则2：最大平均词长，也就是从这些语块中找出平均词长最大的语块，并选取其第一词语作为正确的词语切分形式。这个规则的前提假设是：It is more likely to encounter multi-character words than one-character words（在句子中遇到多字-词语的情况比单字-词语更有可能）. 因此，上述两个“三词语块”中第二个_C1C2C3_就是最佳候选。直观一点，对于如下位于句尾三种形式的“三词语块”：</p>
<blockquote><p>1.国际化（平均词长=3）<br />
2.国际 化（平均词长=1.5）<br />
3.国 际 化（平均词长=1）</p></blockquote>
<p>　　在规则1无法求解的情况下，根据规则2，则“国际化”为最佳候选语块，因此该语块的第一个词“国际化”就是最佳的分词形式。</p>
<p>规则三：最小词长方差（Smallest variance of word lengths）<br />
　　还有一些歧义是规则一和规则二无法解决的，例如，如下的两个“三词语块”拥有同样的长度和同样的平均词长：</p>
<blockquote><p>1. _C1C2_ _C3C4_ _C5C6_<br />
2. _C1C2C3_ _C4_ _C5C6_</p></blockquote>
<p>　　因此引入规则三：最小词长方差，也就是找出词长方差最小的语块，并选取其第一个词语作为正确的词语切分形式。在概率论和统计学中，一个随机变量的方差（Variance）描述的是它的离散程度，也就是该变量离其期望值的距离。因此该规则的前提假设是：Word lengths are usually evenly distributed（句子中的词语长度经常是均匀分布的）。直观来说，对于如下两个“三词语块”：</p>
<blockquote><p>1.研究 生命 起源<br />
2.研究生 命 起源</p></blockquote>
<p>其长度为6，平均词长为2，规则一和规则二无能无力，利用规则三：<br />
　语块1的方差 = ((2-2)^2+(2-2)^2+(2-2)^2)/3 = 0<br />
　语块2的方差 = ((3-2)^2+(1-2)^2+(2-2)^2)/3 = 2/3<br />
则语块1为最佳候选，因此该语块的第一个词“研究”为最佳的分词形式。</p>
<p>规则四：最大单字词语语素自由度之和（Largest sum of degree of morphemic freedom of one-character words）：<br />
　　如下所示，例子中的两个“三词语块”拥有同样的长度、平均词长及方差，因此上述三个规则都无法解决其歧义消解问题：</p>
<blockquote><p>1. _C1_ _C2_ _C3C4_<br />
2. _C1_ _C2C3_ _C4_</p></blockquote>
<p>　　这两个语块都包括了两个单字（one-character）词语和一个两字（two-character）词语，规则四主要关注其中的单字词语。直观来看，有些汉字很少作为词语出现，而另一些汉字则常常作为词语出现，从统计角度来看，在语料库中出现频率高的汉字就很可能是一个单字词语，反之可能性就小。计算单词词语语素自由度之和的公式是对“三词语块”中的单字词语频率取对数并求和（The formula used to calculate the sum of degree of morphemic freedom is to sum log(frequency) of all one-character word(s) in a chunk.）规则四则选取其中和最大的语块，并将该语块的第一词语作为最佳的词语切分形式。</p>
<p>　　关于MMSEG中文分词系统的框架就介绍到此，需要指出的是：</p>
<blockquote><p>“It has to be noted that MMSEG was not designed to be a &#8220;professional level&#8221; system whose goal is 100% correct identification. Rather, MMSEG should be viewed as a general platform on which new ambiguity resolution algorithms can be tested.”</p></blockquote>
<p>　　所以，不要认为有了MMSEG就可以解决中文分词的问题，更应该将MMSEG视为一个基本的平台，在该平台的基础上，有兴趣的读者可以尝试添加新的歧义消解算法以解决中文分词中的难点问题。</p>
<p>未完待续：<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E6%9C%80%E5%A4%A7%E5%8C%B9%E9%85%8D%E6%B3%95%E6%89%A9%E5%B1%952">最大匹配法扩展2</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之最大匹配法扩展1">http://www.52nlp.cn/中文分词入门之最大匹配法扩展1</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>中文分词入门之字标注法2</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952#comments</comments>
		<pubDate>Sun, 10 Jan 2010 08:32:34 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[citar]]></category>
		<category><![CDATA[hmm]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[词性标注]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2952</guid>
		<description><![CDATA[　　虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢？莫非是由于其诞生之初就采用了最大熵模型的缘故。但是，在词性标注中，Citar实现的是TnT中所采用的HMM trigram方法，其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提，本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。
　　我们以微软亚洲研究院提供的中文分词语料为例，采用2-tag(B,I)标记集，只针utf-8编码文本。首先准备训练语料，原始训练集msr_training.utf8的形式是人工分好词的中文句子形式：
“  人们  常  说  生活  是  一  部  教科书  ，  而  血  与  火  的  战争  更  是  不可多得  的  教科书  ，  她  确实  是  名副其实  的 [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢？莫非是由于其诞生之初就采用了最大熵模型的缘故。但是，在词性标注中，Citar实现的是TnT中所采用的HMM trigram方法，其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提，本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。<span id="more-2952"></span><br />
　　我们以微软亚洲研究院提供的中文分词语料为例，采用2-tag(B,I)标记集，只针utf-8编码文本。首先准备训练语料，原始训练集msr_training.utf8的形式是人工分好词的中文句子形式：</p>
<blockquote><p>“  人们  常  说  生活  是  一  部  教科书  ，  而  血  与  火  的  战争  更  是  不可多得  的  教科书  ，  她  确实  是  名副其实  的  ‘  我  的  大学  ’。<br />
“  心  静  渐  知  春  似  海  ，  花  深  每  觉  影  生  香  。<br />
…</p></blockquote>
<p>　　需要将其转换为字标注形式，这里52nlp利用perl写了一个简单的2-tag转换程序<a href="http://www.52nlp.org/wordseg/charatagging/CharacterTagging.txt"target=_blank>CharacterTagging.pl</a>,不过请注意这个程序仅处理utf-8编码的文本：<br />
　　./CharacterTagging.pl -i msr_training.utf8 -o msr_training.tagging.utf8<br />
　　其中-i指示的是输入文件，-o指示的是输出文件，msr_training.tagging.utf8<br />
的内容示例如下：</p>
<blockquote><p>“/B 人/B 们/I 常/B 说/B 生/B 活/I 是/B 一/B 部/B 教/B 科/I 书/I ，/B 而/B 血/ 与/B 火/B 的/B 战/B 争/I 更/B 是/B 不/B 可/I 多/I 得/I 的/B 教/B 科/I 书/I ，/B 她/B 确/B 实/I 是/B 名/B 副/I 其/I 实/I 的/B ‘/B 我/B 的/B 大/B 学/I ’/B /B<br />
“/B 心/B 静/B 渐/B 知/B 春/B 似/B 海/B ，/B 花/B 深/B 每/B 觉/B 影/B 生/B 香/ 。/B<br />
…</p></blockquote>
<p>　　有了这个2-tag的字标注训练语料库，就可以利用Citar中编译好的train来训练字标注器所需的输入文件了：<br />
　　./train msr_training.tagging.utf8 msr_lex msr_ngram<br />
　　其中msr_lex包含了5000多个汉字与其标记的共同出现频率，形式如下：</p>
<blockquote><p>锶 B 4<br />
薛 B 97<br />
铜 B 114 I 26<br />
佛 B 142 I 144<br />
榫 B 2<br />
觚 B 1<br />
萋 B 2 I 8<br />
钮 B 4 I 7<br />
…</p></blockquote>
<p>　　msr_ngram则是标记本身及其之间的共现频率，形式如下：</p>
<blockquote><p>B 2368391<br />
I 1682056<br />
<START> 173836<br />
<END> 86918<br />
B B 1027319<br />
I B 1254154<br />
B <END> 86017<br />
I I 427001<br />
B I 1255055<br />
<START> B 86918<br />
I <END> 901<br />
<START> <START> 86918<br />
&#8230;</p></blockquote>
<p>注：由于没有尖括号在Wordpress中被屏蔽，以上内容有误，谢谢读者bflout的提醒，以下重新附上msr_ngram:</p>
<div class="codecolorer-container c default" style="overflow:auto;white-space:nowrap;border:1px solid #9F9F9F;width:435px;height:300px;"><table cellspacing="0" cellpadding="0"><tbody><tr><td style="padding:5px;text-align:center;color:#888888;background-color:#EEEEEE;border-right: 1px solid #9F9F9F;font: normal 12px/1.4em Monaco, Lucida Console, monospace;"><div>1<br />2<br />3<br />4<br />5<br />6<br />7<br />8<br />9<br />10<br />11<br />12<br />13<br />14<br />15<br />16<br />17<br />18<br />19<br />20<br />21<br />22<br />23<br />24<br />25<br />26<br />27<br />28<br /></div></td><td><div class="c codecolorer" style="padding:5px;font:normal 12px/1.4em Monaco, Lucida Console, monospace;white-space:nowrap">B <span style="color: #0000dd;">2368391</span><br />
I <span style="color: #0000dd;">1682056</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">173836</span><br />
<span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86918</span><br />
B B <span style="color: #0000dd;">1027319</span><br />
I B <span style="color: #0000dd;">1254154</span><br />
B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86017</span><br />
I I <span style="color: #0000dd;">427001</span><br />
B I <span style="color: #0000dd;">1255055</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #0000dd;">86918</span><br />
I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">901</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">86918</span><br />
B I B <span style="color: #0000dd;">1039293</span><br />
B B B <span style="color: #0000dd;">408801</span><br />
I I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">285</span><br />
B B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">18403</span><br />
B I I <span style="color: #0000dd;">215146</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B I <span style="color: #0000dd;">60460</span><br />
I I B <span style="color: #0000dd;">214861</span><br />
I B I <span style="color: #0000dd;">594480</span><br />
B B I <span style="color: #0000dd;">600115</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> <span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #0000dd;">86918</span><br />
I I I <span style="color: #0000dd;">211855</span><br />
B I <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">616</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B B <span style="color: #0000dd;">26449</span><br />
<span style="color: #339933;">&lt;</span>START<span style="color: #339933;">&gt;</span> B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">9</span><br />
I B B <span style="color: #0000dd;">592069</span><br />
I B <span style="color: #339933;">&lt;</span>END<span style="color: #339933;">&gt;</span> <span style="color: #0000dd;">67605</span></div></td></tr></tbody></table></div>
<p>　　注意，这两个文件都很小，msr_lex只有64k,而msr_ngram则不到1k，所占用资源极小。<br />
　　在利用Citar的tag进行标注之前，需要对测试集msr_test.utf8的字符进行切分，在<a href="http://www.itl.nist.gov/iad/mig/tests/mt/2009/"target=_blank>NIST2009</a>机器翻译的评测主页的底部提供了这个工具 :splitUTF8Characters.p：<br />
　　./splitUTF8Characters.pl -i msr_test.utf8 -o msr_test.split.utf8<br />
　　msr_test.utf8的形式如下：</p>
<blockquote><p>扬帆远东做与中国合作的先行<br />
希腊的经济结构较特殊。<br />
&#8230;</p></blockquote>
<p>　　切分后的msr_test.split.utf8形式如下：</p>
<blockquote><p> 扬  帆  远  东  做  与  中  国  合  作  的  先  行<br />
 希  腊  的  经  济  结  构  较  特  殊  。<br />
 &#8230;</p></blockquote>
<p>　　有了msr_test.split.utf8，我们就可以利用Citar的tag进行字标注了：<br />
　　./tag msr_lex msr_ngram < msr_test.split.utf8 > msr_test.hmmtagging.utf8<br />
　　标注后的msr_test.hmmtagging.utf8形式如下：</p>
<blockquote><p>扬/B 帆/I 远/B 东/I 做/B 与/B 中/B 国/I 合/B 作/I 的/B 先/I 行/B<br />
希/B 腊/I 的/B 经/B 济/I 结/B 构/I 较/B 特/B 殊/I 。/B<br />
&#8230;</p></blockquote>
<p>　　最后，就是按照标记结果合并字符并去除标记了。这里52nlp利用perl写了一个简单的还原程序<a href="http://www.52nlp.org/wordseg/charatagging/Character2word.txt"target=_blank>Character2word.pl</a>,不过请注意这个程序仅处理utf-8编码的文本：<br />
　　./Character2word.pl -i msr_test.hmmtagging.utf8 -o msr_test.hmmseg.utf8<br />
　　msr_test.hmmseg.utf8既是最终的分词结果，其形式如下：</p>
<blockquote><p>扬帆 远东 做 与 中国 合作 的先 行<br />
希腊 的 经济 结构 较 特殊 。<br />
…</p></blockquote>
<p>　　当然，这个字标注中文分词的结果好坏还需要利用SIGHAN Bakeoff的score	进行评分：<br />
　　../icwb2-data/scripts/score ../icwb2-data/gold/msr_training_words.utf8 msr_test_gold.utf8  msr_test.hmmseg.utf8 > msr_hmmseg.score<br />
　　最终的评分结果在msr_hmmseg.score中，总的评分如下：</p>
<blockquote><p>…<br />
=== SUMMARY:<br />
=== TOTAL INSERTIONS:   10304<br />
=== TOTAL DELETIONS:    7030<br />
=== TOTAL SUBSTITUTIONS:        30727<br />
=== TOTAL NCHANGE:      48061<br />
=== TOTAL TRUE WORD COUNT:      106873<br />
=== TOTAL TEST WORD COUNT:      110147<br />
=== TOTAL TRUE WORDS RECALL:    0.647<br />
=== TOTAL TEST WORDS PRECISION: 0.627<br />
=== F MEASURE:  0.637<br />
=== OOV Rate:   0.026<br />
=== OOV Recall Rate:    0.181<br />
=== IV Recall Rate:     0.659<br />
###     msr_test.hmmseg.utf8    10304   7030    30727   48061   106873  110147  0.647   0.627   0.637   0.026   0.181   0.659</p></blockquote>
<p>　　结果残不忍睹，不过没关系，重要的是思想，当你明白了如何进行字标注中文分词的设计和操作之后，可以做得改进有很多，譬如增加标记集，修改Citar中不合适的未登录词处理方法，甚至重新采用其他模型等等等等。同样，52nlp也会在合适的时候介绍一下最大熵模型和条件随机场在中文分词中的应用，欢迎继续关注本博客！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之字标注法2">http://www.52nlp.cn/中文分词入门之字标注法2</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>中文分词入门之字标注法1</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951#comments</comments>
		<pubDate>Wed, 06 Jan 2010 15:47:20 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[citar]]></category>
		<category><![CDATA[hmm]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[张俊林]]></category>
		<category><![CDATA[词性标注]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2928</guid>
		<description><![CDATA[　　在《自然语言处理领域的两种创新观念》中，张俊林博士谈了两种创新模式：一种创新是研究模式的颠覆，另外一种创新是应用创新，前者需要NLP领域出现爱因斯坦式的革新人物，后者则是强调用同样的核心技术做不一样的应用。
　　在自然语言处理领域，多数创新都属于后者，譬如统计机器翻译，Brown就是学习和借鉴了贾里尼克将语音识别看成通信问题的思想，将信源信道模型应用到了机器翻译之中，从而开辟了SMT这一全新领域。而Nianwen Xue将词性标注的思想应用到中文分词领域，成就了字标注的中文分词方法（Chinese Word Segmentation as Character Tagging），同样取得了巨大的成功。这里曾通过节选黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》介绍了《基于字标注的中文分词方法》，因此还不太清楚这类方法的读者可以通过上述文章了解该方法的一些背景，本文的重点是实践。
　　既然基于字标注的中文分词方法是将中文分词当作词性标注的问题来对待，那么就必须有标注对象和标注集了。形象一点，从这个方法的命名上我们就可以推断出它的标注是基本的汉字（还包括一定数量的非汉字字符），而标注集则比较灵活，这些标注集都是依据汉字在汉语词中的位置设计的，最简单的是2-tag，譬如将词首标记设计为B，而将词的其他位置标记设计为I，那么“中国”就可以标记为“中/B 国/I”，“海南岛”则可以标记为“海/B 南/I 岛/I”，相应地，对于如下分好词的句子：
	瓦西里斯  的  船只  中  有  ４０％  驶  向  远东  ，  每个  月  几乎  都  有  两三条  船  停靠  中国  港口  。
　　基于2-tag（B，I）的标注就是：
	瓦/B 西/I 里/I 斯/I 的/B 船/B [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-four-hidden-markov-models' rel='bookmark' title='Permanent Link: HMM学习最佳范例四：隐马尔科夫模型'>HMM学习最佳范例四：隐马尔科夫模型</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　在《<a href="http://www.52nlp.cn/two-innovative-ideas-in-natural-language-processing-area"target=_blank>自然语言处理领域的两种创新观念</a>》中，张俊林博士谈了两种创新模式：一种创新是研究模式的颠覆，另外一种创新是应用创新，前者需要NLP领域出现爱因斯坦式的革新人物，后者则是强调用同样的核心技术做不一样的应用。<span id="more-2928"></span><br />
　　在自然语言处理领域，多数创新都属于后者，譬如统计机器翻译，Brown就是学习和借鉴了贾里尼克将语音识别看成通信问题的思想，将信源信道模型应用到了机器翻译之中，从而开辟了SMT这一全新领域。而Nianwen Xue将词性标注的思想应用到中文分词领域，成就了字标注的中文分词方法（Chinese Word Segmentation as Character Tagging），同样取得了巨大的成功。这里曾通过节选黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》介绍了《<a href="http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation"target=_blank>基于字标注的中文分词方法</a>》，因此还不太清楚这类方法的读者可以通过上述文章了解该方法的一些背景，本文的重点是实践。<br />
　　既然基于字标注的中文分词方法是将中文分词当作词性标注的问题来对待，那么就必须有标注对象和标注集了。形象一点，从这个方法的命名上我们就可以推断出它的标注是基本的汉字（还包括一定数量的非汉字字符），而标注集则比较灵活，这些标注集都是依据汉字在汉语词中的位置设计的，最简单的是2-tag，譬如将词首标记设计为B，而将词的其他位置标记设计为I，那么“中国”就可以标记为“中/B 国/I”，“海南岛”则可以标记为“海/B 南/I 岛/I”，相应地，对于如下分好词的句子：</p>
<blockquote><p>	瓦西里斯  的  船只  中  有  ４０％  驶  向  远东  ，  每个  月  几乎  都  有  两三条  船  停靠  中国  港口  。</p></blockquote>
<p>　　基于2-tag（B，I）的标注就是：</p>
<blockquote><p>	瓦/B 西/I 里/I 斯/I 的/B 船/B 只/I 中/B 有/B ４/B ０/I ％/I 驶/B 向/B 远/B 东/I ，/B 每/B 个/I 月/B 几/B 乎/I 都/B 有/B 两/B 三/I 条/I 船/B 停/B 靠/I 中/B 国/I 港/B 口/I 。/B</p></blockquote>
<p>　　除了2-tag，还有4-tag、6-tag等，都是依据字在词中的位置设计的，本文主要目的是从实践的角度介绍基于字标注的中文分词方法设计，以达到抛砖引玉的作用，因此我们仅选用2-tag（B，I）标注集进行实验说明。<br />
　　有了标注对象和标注集，那么又如何进行中文分词呢？仍以前面的句子为例，只不过这里还没有进行中文分词：</p>
<blockquote><p>瓦西里斯的船只中有４０％驶向远东，每个月几乎都有两三条船停靠中国港口。</p></blockquote>
<p>　　首先，你需要将标注对象独立出来，事实上就是给每个字符加上空格：</p>
<blockquote><p>瓦  西  里  斯  的  船  只  中  有  ４  ０  ％  驶  向  远  东  ，  每  个  月  几  乎  都  有  两  三  条  船  停  靠  中  国  港  口  。</p></blockquote>
<p>　　其次，假设你已经训练好了一个字标注器，那么就直接给这些字进行标注吧：</p>
<blockquote><p>瓦/B 西/I 里/B 斯/I 的/B 船/I 只/B 中/B 有/B ４/I ０/I ％/I 驶/I 向/B 远/I 东/B ，/B 每/B 个/I 月/I 几/B 乎/I 都/B 有/I 两/B 三/B 条/B 船/I 停/B 靠/I 中/B 国/I 港/I 口/I 。/B</p></blockquote>
<p>　　最后，需要你做得就是按照这两个标记的意思还原中文词，并且除去这些标记：</p>
<blockquote><p>瓦西 里斯 的船 只 中 有４０％驶 向远 东 ， 每个月 几乎 都有 两 三 条船 停靠 中国港口 。</p></blockquote>
<p>　　好了，这就是字标注方法的流程和分词结果，很遗憾，这个标注器的效果不太好，不过没关系，你可以设计更好的字标注器，英文词性标注的被老外研究的太充分了，什么HMM、TBL、最大熵、条件随机场、决策树等等等等，不仅仅是方法，连开源工具都给你提供，完全可以拿来主义。<br />
　　那么又怎样拿来主义设计自己的字标注中文分词器呢？不知读者可记着Citar,不记得的话可以温习一下《<a href="http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6"target=_blank>HMM在自然语言处理中的应用一：词性标注6</a>》，Citar是一个“Hidden Markov Model trigram POS tagger”，需要有标注好的语料来训练相应语言的词性标注器，其核心的HMM标注框架是不依赖于语言的，但是在处理未登录词时Citar是主要利用英文词缀信息进行标注的，因此其对于英文词性标注来说效果相对较好，对于其他语言，特别是中文这种没有词形变化的孤立语来说，其词性标注效果要打一点折扣。不过没关系，这里主要谈的是思想，而不是工程上的应用，因此暂时可以忽略这点影响，对于本文利用其所设计的字标注器来说，同样适用。<br />
　　可是哪里有这样的训练语料呢？俗话说得好：自己动手，丰衣足食。虽然没有哪个组织提供这样的字标注语料库，但是我们有SIGHAN Bakeoff提供的icwb2-data，你完全可以利用自己熟悉的编程语言写一个前处理程序，将其转换为我们所需要的字标注训练语料库形式。下一节我们将以微软亚洲研究院提供的中文分词语料为例,利用Citar完成一个基于HMM trigram的字标注中文分词程序。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之字标注法1">http://www.52nlp.cn/中文分词入门之字标注法1</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-four-hidden-markov-models' rel='bookmark' title='Permanent Link: HMM学习最佳范例四：隐马尔科夫模型'>HMM学习最佳范例四：隐马尔科夫模型</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>中文分词入门之文献</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae#comments</comments>
		<pubDate>Sun, 27 Dec 2009 15:39:42 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[张开旭]]></category>
		<category><![CDATA[文献]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[赵海]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2905</guid>
		<description><![CDATA[　　上一节谈了中文分词的资源问题，有了这一基础条件，如果读者对中文分词感兴趣，就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻，不仅仅针对中文分词，对于自然语言处理的初学者来说，即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解，而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。
　　阅读相关领域的文献，我觉得还是MIT人工智能实验室的《如何做研究》里的建议是最恰当的：“如果你对AI的某个子领域感兴趣，向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。所以很喜欢《统计机器翻译文献阅读指南》这样的文章，如果三年前能阅读到这样的文章，或许在SMT的学习过程中我可以少走一些弯路，也正因为如此，52nlp上也正在收集和整理一些领域的文献阅读指南，虽然我个人不一定研究这些领域，但是对于NLP的初学者来说，或许这些文献指南是有一点用的。
　　最喜欢的文献阅读指南类型是那些既总结经典又带有点评性质的，譬如《最大熵模型文献阅读指南》，但并不是所有的自然语言处理领域都有这样风格的文献指南，因而退而求其次，很多领域都有一些热心人整理了类似“Bibliography”的文献列表。包括中文分词，清华大学自然语言处理组的张开旭博士就整理了一份“中文分词文献列表”，其时间跨度从1991年至今，尤其是03年之后的文献比较详细，非常值得一阅。
　　另外，我曾阅读过一篇“Word Segmentation Reading List”，对于作者是谁，没有仔细考证，但是文中关于一些文章只言片语的评论也是蛮有意思的，值得学习中文分词的读者拿来参考一下。
　　近些年，在中文分词研究中“基于字标注的中文分词方法”赤手可热，建议感兴趣的读者关注一下《对于bakeoff-3的简单综述》，似乎是赵海博士的文章，这个系列有三篇，尤其是第一篇最后几段比较有意思：
上面提到的Low and Ng是如下的参考文献
bibitem{Low:2005}
Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo 2005. A Maximum Entropy Approach to Chinese Word Segmentation. {em Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing}, 161-164. Jeju Island, Korea.
这是2005年赛事上取得最多第一的系统，在参加的全部4个开放测试中累计获得3个第一，1个第二。
因此，我愿意说，bakeoff-3的结果不是本届参赛者的胜利，而是bakeoff-2的参赛者Low and Ng的胜利。
让我们稍微回顾一下bakeoff-2，Low and Ng几乎垄断了开放测试，Tseng等人则几乎垄断了封闭测试。然而，重要的是，这两个参赛者，用的都是基于字标引的机器学习方法。这一方法的开创者是bakeoff-1的Xue:
bibitem{Xue:2003a}
Nianwen Xue. 2003. Chinese Word Segmentation as Character Tagging. {em Computational Linguistics and Chinese [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/acl-2010%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Permanent Link: ACL 2010文章已可下载'>ACL 2010文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='Permanent Link: 条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/bayesian-modeling-for-language-tutorial-reading' rel='bookmark' title='Permanent Link: 贝叶斯模型文献阅读指南'>贝叶斯模型文献阅读指南</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　<a href="http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90"target=_blank>上一节</a>谈了中文分词的资源问题，有了这一基础条件，如果读者对中文分词感兴趣，就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻，不仅仅针对中文分词，对于自然语言处理的初学者来说，即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解，而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。<span id="more-2905"></span><br />
　　阅读相关领域的文献，我觉得还是MIT人工智能实验室的《如何做研究》里的建议是最恰当的：“如果你对AI的某个子领域感兴趣，向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。所以很喜欢《<a href="http://www.52nlp.cn/statistical-machine-translation-tutorial-reading"target=_blank>统计机器翻译文献阅读指南</a>》这样的文章，如果三年前能阅读到这样的文章，或许在SMT的学习过程中我可以少走一些弯路，也正因为如此，52nlp上也正在收集和整理一些领域的文献阅读指南，虽然我个人不一定研究这些领域，但是对于NLP的初学者来说，或许这些文献指南是有一点用的。<br />
　　最喜欢的文献阅读指南类型是那些既总结经典又带有点评性质的，譬如《<a href="http://www.52nlp.cn/maximum-entropy-model-tutorial-reading"target=_blank>最大熵模型文献阅读指南</a>》，但并不是所有的自然语言处理领域都有这样风格的文献指南，因而退而求其次，很多领域都有一些热心人整理了类似“Bibliography”的文献列表。包括中文分词，清华大学自然语言处理组的张开旭博士就整理了一份“<a href="http://nlp.csai.tsinghua.edu.cn/~zkx/cws/bib.html"target=_blank>中文分词文献列表</a>”，其时间跨度从1991年至今，尤其是03年之后的文献比较详细，非常值得一阅。<br />
　　另外，我曾阅读过一篇“<a href="http://qxred.ycool.com/post.1328824.html"target=_blank>Word Segmentation Reading List</a>”，对于作者是谁，没有仔细考证，但是文中关于一些文章只言片语的评论也是蛮有意思的，值得学习中文分词的读者拿来参考一下。<br />
　　近些年，在中文分词研究中“<a href="http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation"target=_blank>基于字标注的中文分词方法</a>”赤手可热，建议感兴趣的读者关注一下《<a href="http://cwseg.spaces.live.com/blog/cns!379FC86001B7891D!107.entry"target=_blank>对于bakeoff-3的简单综述</a>》，似乎是赵海博士的文章，这个系列有三篇，尤其是第一篇最后几段比较有意思：</p>
<blockquote><p>上面提到的Low and Ng是如下的参考文献<br />
bibitem{Low:2005}<br />
Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo 2005. A Maximum Entropy Approach to Chinese Word Segmentation. {em Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing}, 161-164. Jeju Island, Korea.<br />
这是2005年赛事上取得最多第一的系统，在参加的全部4个开放测试中累计获得3个第一，1个第二。<br />
因此，我愿意说，bakeoff-3的结果不是本届参赛者的胜利，而是bakeoff-2的参赛者Low and Ng的胜利。<br />
让我们稍微回顾一下bakeoff-2，Low and Ng几乎垄断了开放测试，Tseng等人则几乎垄断了封闭测试。然而，重要的是，这两个参赛者，用的都是基于字标引的机器学习方法。这一方法的开创者是bakeoff-1的Xue:<br />
bibitem{Xue:2003a}<br />
Nianwen Xue. 2003. Chinese Word Segmentation as Character Tagging. {em Computational Linguistics and Chinese Language Processing}, Vol. 8(1): 29-48.<br />
bibitem{Xue:2002}<br />
Nianwen Xue and S. P. Converse. 2002. Combining Classifiers for Chinese Word Segmentation. {em Proceedings of the First SIGHAN Workshop on Chinese Language Processing}, 57-63.<br />
bibitem{Xue:2003b}<br />
Nianwen Xue and Libin Shen. 2003. Chinese Word Segmentation as LMR Tagging. In  {em Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL&#8217;03}, 176-179. Sapporo, Japan<br />
依此追溯，bakeoff至今的全部辉煌其实是Xue的方法论在中文分词上的胜利。</p></blockquote>
<p>　　所以，想了解字标注的中文分词方法的读者，可以先看看Xue的这几篇开创性的文献。<br />
　　关于中文分词，我个人并没有深入的研究，这里介绍的只是我所知道和了解一点的，欢迎读者朋友进行补充！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之文献">http://www.52nlp.cn/中文分词入门之文献</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/acl-2010%e6%96%87%e7%ab%a0%e5%b7%b2%e5%8f%af%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Permanent Link: ACL 2010文章已可下载'>ACL 2010文章已可下载</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='Permanent Link: 条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/bayesian-modeling-for-language-tutorial-reading' rel='bookmark' title='Permanent Link: 贝叶斯模型文献阅读指南'>贝叶斯模型文献阅读指南</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>中文分词入门之资源</title>
		<link>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90</link>
		<comments>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90#comments</comments>
		<pubDate>Tue, 22 Dec 2009 16:44:03 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[Bakeoff]]></category>
		<category><![CDATA[Bakeoff 2005]]></category>
		<category><![CDATA[LDC]]></category>
		<category><![CDATA[SIGHAN]]></category>
		<category><![CDATA[中文分词入门]]></category>
		<category><![CDATA[字标注]]></category>
		<category><![CDATA[最大匹配法]]></category>
		<category><![CDATA[资源]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2885</guid>
		<description><![CDATA[　　作为中文信息处理的“桥头堡”，中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中，资源的重要性又不言而喻，最大匹配法等需要一个好的词表，而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词，第一步需要解决的就是资源问题，这里曾经介绍过“LDC上免费的中文信息处理资源”，其中包括一个有频率统计的词表，共计44405条，就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库，需要很大的人力物力投入，所以无论研究还是商用往往需要一定的费用购买，好在SIGHAN Bakeoff为我们提供了一个非商业使用（non-commercial）的免费获取途径，以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。
　　SIGHAN是国际计算语言学会（ACL）中文语言处理小组的简称，其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”，又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛，第一届于2003年在日本札幌举行（Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届（Bakeoff 2006）则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届，其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的，但是请注意使用的前提是非商业使用（non-commercial）:
　　The data and results for the 2nd International Chinese Word Segmentation Bakeoff are now available for non-commercial use.
　　在Bakeoff 2005的主页上，我们可以找到如下一行：“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d6' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词6'>Beautiful Data-统计语言模型的应用三：分词6</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　作为中文信息处理的“桥头堡”，中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中，资源的重要性又不言而喻，<a href="http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation"target=_blank>最大匹配法</a>等需要一个好的词表，而<a href="http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation"target=_blank>基于字标注的中文分词方法</a>又需要人工加工好的分词语料库。所以想研究中文分词，第一步需要解决的就是资源问题，这里曾经介绍过“<a href="http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc"target=_blank>LDC上免费的中文信息处理资源</a>”，其中包括一个有频率统计的词表，共计44405条，就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库，需要很大的人力物力投入，所以无论研究还是商用往往需要一定的费用购买，好在SIGHAN Bakeoff为我们提供了一个非商业使用（non-commercial）的免费获取途径，以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。<span id="more-2885"></span><br />
　　<a href="http://sighan.cs.uchicago.edu/"target=_blank>SIGHAN</a>是国际计算语言学会（ACL）中文语言处理小组的简称，其英文全称为“Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics”，又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛，第一届于2003年在日本札幌举行（Bakeoff 2003),第二届于2005年在韩国济州岛举行(Bakeoff 2005), 而2006年在悉尼举行的第三届（Bakeoff 2006）则在前两届的基础上加入了中文命名实体识别评测。目前SIGHAN Bakeoff已成功举办了6届，其中Bakeoff 2005的数据和结果在其主页上是完全免费和公开的，但是请注意使用的前提是非商业使用（non-commercial）:</p>
<blockquote><p>　　The data and results for the 2nd International Chinese Word Segmentation Bakeoff are now available for non-commercial use.</p></blockquote>
<p>　　在<a href="http://sighan.cs.uchicago.edu/bakeoff2005/"target=_blank>Bakeoff 2005</a>的主页上，我们可以找到如下一行：“The complete training, testing, and gold-standard data sets, as well as the scoring script, are available for research use”，在这一行下面提供了三个版本的icwb2-data。下载解压后，通过README就可以很清楚的了解到它包含哪些中文分词资源，特别需要说明的是这些中文分词语料库分别由台湾中央研究院（Academia Sinica）、香港城市大学（City University of Hong Kong）、北京大学(Peking University)及微软亚洲研究院（Microsoft Research）提供，其中前二者是繁体中文，后二者是简体中文,以下按照README简要介绍icwb2-data:</p>
<p>1) 介绍（Introduction）：<br />
　　本目录包含了训练集、测试集及测试集的（黄金）标准切分，同时也包括了一个用于评分的脚本和一个可以作为基线测试的简单中文分词器。(This directory contains the training, test, and gold-standard data used in the 2nd International Chinese Word Segmentation Bakeoff. Also included is the script used to score the results submitted by the bakeoff participants and the simple segmenter used to generate the baseline and topline data.)</p>
<p>2) 文件列表（File List）<br />
　　在gold目录里包含了测试集标准切分及从训练集中抽取的词表（Contains the gold standard segmentation of the test data along with the training data word lists.）<br />
　　在scripts目录里包含了评分脚本和简单中文分词器（Contains the scoring script and simple segmenter.）<br />
　　在testing目录里包含了未切分的测试数据（Contains the unsegmented test data.）<br />
　　在training目录里包含了已经切分好的标准训练数据（Contains the segmented training data.）<br />
　　在doc目录里包括了bakeoff的一些指南（Contains the instructions used in the bakeoff.）</p>
<p>3) 编码（Encoding Issues）<br />
　　文件包括扩展名”.utf8”则其编码为UTF-8(Files with the extension &#8220;.utf8&#8243; are encoded in UTF-8 Unicode.)<br />
　　文件包括扩展名”.txt”则其编码分别为（Files with the extension &#8220;.txt&#8221; are encoded as follows）:<br />
　　前缀为as_，代表的是台湾中央研究院提供，编码为Big Five (CP950)；<br />
　　前缀为hk_，代表的是香港城市大学提供，编码为Big Five/HKSCS；<br />
　　前缀为msr_，代表的是微软亚洲研究院提供，编码为 EUC-CN (CP936)；<br />
　　前缀为pku_，代表的北京大学提供，编码为EUC-CN (CP936)；<br />
　　EUC-CN即是GB2312（EUC-CN is often called &#8220;GB&#8221; or &#8220;GB2312&#8243; encoding, though technically GB2312 is a character set, not a character encoding.）</p>
<p>4） 评分（Scoring）<br />
　　评分脚本“score”是用来比较两个分词文件的，需要三个参数（The script &#8217;score&#8217; is used to generate compare two segmentations. The script takes three arguments)：<br />
　　1. 训练集词表（The training set word list）<br />
　　2. “黄金”标准分词文件（The gold standard segmentation）<br />
　　3. 测试集的切分文件（The segmented test file）<br />
　<br />
　　以下利用其自带的中文分词工具进行说明。在scripts目录里包含一个基于最大匹配法的中文分词器mwseg.pl，以北京大学提供的人民日报语料库为例，用法如下：<br />
　　./mwseg.pl ../gold/pku_training_words.txt < ../testing/pku_test.txt > pku_test_seg.txt<br />
　　其中第一个参数需提供一个词表文件pku_training_word.txt，输入为pku_test.txt，输出为pku_test_seg.txt。<br />
　　利用score评分的命令如下：<br />
　　./score ../gold/pku_training_words.txt ../gold/pku_test_gold.txt pku_test_seg.txt > score.txt<br />
　　其中前三个参数已介绍，而score.txt则包含了详细的评分结果，不仅有总的评分结果，还包括每一句的对比结果。这里只看最后的总评结果：</p>
<blockquote><p>…<br />
= SUMMARY:<br />
=== TOTAL INSERTIONS:	9274<br />
=== TOTAL DELETIONS:	1365<br />
=== TOTAL SUBSTITUTIONS:	8377<br />
=== TOTAL NCHANGE:	19016<br />
=== TOTAL TRUE WORD COUNT:	104372<br />
=== TOTAL TEST WORD COUNT:	112281<br />
=== TOTAL TRUE WORDS RECALL:	0.907<br />
=== TOTAL TEST WORDS PRECISION:	0.843<br />
=== F MEASURE:	0.874<br />
=== OOV Rate:	0.058<br />
=== OOV Recall Rate:	0.069<br />
=== IV Recall Rate:	0.958<br />
###	pku_test_seg.txt	9274	1365	8377	19016	104372	112281	0.907	0.843	0.874	0.058	0.069	0.958</p></blockquote>
<p>　　说明这个中文分词器在北大提供的语料库上的测试结果是：召回率为90.7%，准确率为84.3%，F值为87.4%等。<br />
　　SIGHAN Bakeoff公开资源的一个重要意义在于这里提供了一个完全公平的平台，任何人都可以拿自己研究的中文分词工具进行测评，并且可以和其公布的比赛结果对比，是驴子是马也就一目了然了。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/中文分词入门之资源">http://www.52nlp.cn/中文分词入门之资源</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%952' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法2'>中文分词入门之字标注法2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%952' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展2'>中文分词入门之最大匹配法扩展2</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 基于字标注的中文分词方法'>基于字标注的中文分词方法</a></li>
<li><a href='http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法'>中文分词入门之最大匹配法</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d6' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词6'>Beautiful Data-统计语言模型的应用三：分词6</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e7%af%87%e5%a4%96' rel='bookmark' title='Permanent Link: 中文分词入门之篇外'>中文分词入门之篇外</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>LDC上免费的中文信息处理资源</title>
		<link>http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc</link>
		<comments>http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc#comments</comments>
		<pubDate>Wed, 02 Sep 2009 14:42:26 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[中文信息处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[LDC]]></category>
		<category><![CDATA[中文分词]]></category>
		<category><![CDATA[统计机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[语言数据联盟]]></category>
		<category><![CDATA[香港法律汉英双语平行语料库]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=2138</guid>
		<description><![CDATA[　　著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办，由美国宾夕法尼亚大学主办，拥有众多的优质语言资源，对于自然语言处理及计算语言学的研究者来说，算得上是一座语言资源的金矿。不过其实行会员制，绝大部分语言资源需要收取一定费用，但是对于会员来说，费用相对低廉一些，因此世界上的许多大学及科研机构都是其会员，国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。
　　对于中文信息处理来说，LDC上有一个专门的页面予以了介绍，难能宝贵的是，在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用，以下简单列出其所包括的资源：
1、	汉字及其相应拼音表示的对应表：
　　包括了7809个条目的汉字及其相应的拼音表示，一些汉字对应了不止一个拼音，即多音字，内容示例如下：
　　　　啊	a1
　　　　啊	a2
　　　　啊	a3
　　　　啊	a4
　　　　啊	a5
　　　　阿	a1
　　　　阿	a5
　　　　阿	e1
　　　　…
2、	汉英平行对应词表：
　　包括了汉英及英汉双向的对应词条，分别有1.0和2.0版本，汉英词条内容示例如下：
　　啊	/(interj.)/ah/an interjection/&#8230;/
　　啊呀	/oh/
　　阿	/an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/
　　阿巴丹	/Abadan /
　　阿贝马马环礁	/Abemama Atoll/
　　阿贝歇	/Abechar/
　　阿比让	/Abidjan/
　　阿比西尼亚	/Abyssinia/
　　阿比西尼亚人	/Abyssinian (person)/
　　…
3、	中文分词工具：
　　一个perl脚本写得中文分词工具（288行），打包文件中包含了一个有频率统计的词表（很有用的一个中文分词资源），共计44405条，内容示例如下：
　　　　214048 的 di4
　　　　214048 的 de5
　　　　70872 了 liao3
　　　　70872 了 le5
　　　　61364 我 wo3
　　　　58407 在 zai4
　　　　57385 是 shi4
　　　　56756 一 yi1
　　　　…
4、	香港法律汉英双语平行语料库：
　　SGML格式，共计238271句对，一个不错的统计机器翻译实验资源。英文语料部分内容示例如下：
　　&#60;s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-2' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注2'>HMM在自然语言处理中的应用一：词性标注2</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办，由美国宾夕法尼亚大学主办，拥有众多的优质语言资源，对于自然语言处理及计算语言学的研究者来说，算得上是一座语言资源的金矿。不过其实行会员制，绝大部分语言资源需要收取一定费用，但是对于会员来说，费用相对低廉一些，因此世界上的许多大学及科研机构都是其会员，国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。<span id="more-2138"></span><br />
　　对于中文信息处理来说，LDC上有一个专门的页面予以了介绍，难能宝贵的是，在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用，以下简单列出其所包括的资源：</p>
<p><strong>1、	汉字及其相应拼音表示的对应表：</strong><br />
　　包括了7809个条目的汉字及其相应的拼音表示，一些汉字对应了不止一个拼音，即多音字，内容示例如下：<br />
　　　　啊	a1<br />
　　　　啊	a2<br />
　　　　啊	a3<br />
　　　　啊	a4<br />
　　　　啊	a5<br />
　　　　阿	a1<br />
　　　　阿	a5<br />
　　　　阿	e1<br />
　　　　…</p>
<p><strong>2、	汉英平行对应词表：</strong><br />
　　包括了汉英及英汉双向的对应词条，分别有1.0和2.0版本，汉英词条内容示例如下：<br />
　　啊	/(interj.)/ah/an interjection/&#8230;/<br />
　　啊呀	/oh/<br />
　　阿	/an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/<br />
　　阿巴丹	/Abadan /<br />
　　阿贝马马环礁	/Abemama Atoll/<br />
　　阿贝歇	/Abechar/<br />
　　阿比让	/Abidjan/<br />
　　阿比西尼亚	/Abyssinia/<br />
　　阿比西尼亚人	/Abyssinian (person)/<br />
　　…</p>
<p><strong>3、	中文分词工具：</strong><br />
　　一个perl脚本写得中文分词工具（288行），打包文件中包含了一个有频率统计的词表（很有用的一个中文分词资源），共计44405条，内容示例如下：<br />
　　　　214048 的 di4<br />
　　　　214048 的 de5<br />
　　　　70872 了 liao3<br />
　　　　70872 了 le5<br />
　　　　61364 我 wo3<br />
　　　　58407 在 zai4<br />
　　　　57385 是 shi4<br />
　　　　56756 一 yi1<br />
　　　　…</p>
<p><strong>4、	香港法律汉英双语平行语料库：</strong><br />
　　SGML格式，共计238271句对，一个不错的统计机器翻译实验资源。英文语料部分内容示例如下：<br />
　　&lt;s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard thereto, to define terms and expressions used in laws and public documents, to make general provision with regard to public officers, public contracts and civil and criminal proceedings and for purposes and for matters incidental thereto or connected therewith.<br />
　　&lt;s id=2> [31 December 1966]  L.N. 88 of 1966<br />
　　&lt;s id=3> PART I<br />
　　&lt;s id=4> SHORT TITLE AND APPLICATION<br />
　　&lt;s id=5> This Ordinance may be cited as the Interpretation and General Clauses<br />
　　….</p>
<p>　　详细的情况读者可以在LDC上关于中文信息处理的页面查看：<br />
　　　　　<a href="http://projects.ldc.upenn.edu/Chinese/"target=_blank>http://projects.ldc.upenn.edu/Chinese/</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/">http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%96%87%e7%8c%ae' rel='bookmark' title='Permanent Link: 中文分词入门之文献'>中文分词入门之文献</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e8%b5%84%e6%ba%90' rel='bookmark' title='Permanent Link: 中文分词入门之资源'>中文分词入门之资源</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e5%ad%97%e6%a0%87%e6%b3%a8%e6%b3%951' rel='bookmark' title='Permanent Link: 中文分词入门之字标注法1'>中文分词入门之字标注法1</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%85%a5%e9%97%a8%e4%b9%8b%e6%9c%80%e5%a4%a7%e5%8c%b9%e9%85%8d%e6%b3%95%e6%89%a9%e5%b1%951' rel='bookmark' title='Permanent Link: 中文分词入门之最大匹配法扩展1'>中文分词入门之最大匹配法扩展1</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-six-foreign-book' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之六：国外书籍'>自然语言处理与计算语言学书籍汇总之六：国外书籍</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-2' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注2'>HMM在自然语言处理中的应用一：词性标注2</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
