三
10
本节我们进入《Beautiful Data》中分词的编码阶段,完整的程序及数据大家可以在“Natural Language Corpus Data: Beautiful Data”上下载ngrams.zip,我这里主要做一些解读。程序由python实现,无论在Linux或者Windows平台下,只要安装了相应的python版本,程序均可以通过测试,不过我所使用的是python2.6,注意,在python3.0上会有一些问题。 阅读全文
三
2
现在,我们就可以应用这个方法来进行分词了。首先定义一个函数:segment,其输入是一串没有空格的字符串,而输出则是一个单词列表,既最好的分词结果: 阅读全文
二
26
本节我们开始《Beautiful Data》中的“Word Segmentation”之旅,虽然Peter Norvig大牛从中文分词的需求讲起,但本节事实上讲得是英文分词,毕竟Google语言模型是以英文语料库为基础的,用中文分词举例Google语言模型就无用武之地了。一般说来,英文是不需要分词的,基本上tokenization就够了。但是某些时候,譬如英文网址(URLs)就没有空格,对于搜索引擎或者文字处理程序来说正确的分词就很重要了。不过,无论英文分词还是中文分词,利用统计语言模型来分词的思想本质是一样的。 阅读全文
一
25
在进入正题之前,还是先说两句篇外话,上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg,相似的,python版mmseg的作者fakechris也在这里留了言:
你好,我是pychseg的作者,一直没时间加上download,大家check out源代码就可以用了。。。
一
21
这篇不是计划内的“中文分词入门系列”,所以称之为篇外。上一篇《中文分词入门之最大匹配法扩展1》提到了MMSEG国内的一些情况:
不过国内也有该文的简介文章:《MMSeg分词算法简述》,原文似乎出自“www.solol.org”,但是我一直没打开这个网站,因为Java版的mmesg也是其提供的,不知道是已经关闭了还是被“墙”了。另外,leeing也翻译了全文《MMSEG 中文分词算法》,我粗略的读了一下,感觉翻译的不错。
一
18
这里曾写过《中文分词入门之最大匹配法》,并且获得了很高的关注度,不过现在回头来看,这个方法只是最初级的中文分词匹配方法。事实上,很多学者都基于简单的中文分词匹配法做了扩展,其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”,在这篇文章的页面中,不仅介绍了相关的中文分词算法,并且提供了一个C版本的mmseg供研究使用,目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版,影响甚广。 阅读全文
一
10
虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。 阅读全文
一
6
在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。 阅读全文
十二
27
上一节谈了中文分词的资源问题,有了这一基础条件,如果读者对中文分词感兴趣,就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻,不仅仅针对中文分词,对于自然语言处理的初学者来说,即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解,而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。 阅读全文
十二
23
作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。 阅读全文