月度归档:2010年01月

一个不错的自然语言处理词典

  前不久发现了一个“自然语言处理词典(The Natural Language Processing Dictionary)”,觉得很有意思。作者Bill Wilson是澳大利亚新南威尔士大学的一名教授,因为开了一门“人工智能”课程,就为这门课程分别编制了Prolog,人工智能(Artificial Intelligence),机器学习(Machine Learning)以及自然语言处理(Natural Language Processing)的相关术语词典。这几个词典建于1998年,Bill Wilson教授似乎还在进行维护和更新,所以目前仍很有参考价值。 继续阅读

中文分词入门之最大匹配法扩展2

  在进入正题之前,还是先说两句篇外话,上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg,相似的,python版mmseg的作者fakechris也在这里留了言:

你好,我是pychseg的作者,一直没时间加上download,大家check out源代码就可以用了。。。

继续阅读

中文分词入门之篇外

  这篇不是计划内的“中文分词入门系列”,所以称之为篇外。上一篇《中文分词入门之最大匹配法扩展1》提到了MMSEG国内的一些情况:

  不过国内也有该文的简介文章:《MMSeg分词算法简述》,原文似乎出自“www.solol.org”,但是我一直没打开这个网站,因为Java版的mmesg也是其提供的,不知道是已经关闭了还是被“墙”了。另外,leeing也翻译了全文《MMSEG 中文分词算法》,我粗略的读了一下,感觉翻译的不错。

继续阅读

中文分词入门之最大匹配法扩展1

  这里曾写过《中文分词入门之最大匹配法》,并且获得了很高的关注度,不过现在回头来看,这个方法只是最初级的中文分词匹配方法。事实上,很多学者都基于简单的中文分词匹配法做了扩展,其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”,在这篇文章的页面中,不仅介绍了相关的中文分词算法,并且提供了一个C版本的mmseg供研究使用,目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版,影响甚广。 继续阅读

做遵纪守法的好公民,52nlp备案去了

  不多说了,为了做一个遵纪守法的好公民,52nlp备案去了。由于备案期间网站需要关闭一段时间,时间未知,故为”我爱自然语言处理”做了一个镜像,估计只有订阅用户能看到了,望广而告之!
  博客镜像:http://blog.52nlp.org
  博客镜像暂不更新文章!最好不要在镜像里留言或评论!以后恐无法保留!
  再见!亲爱的读者! 继续阅读

中文分词入门之字标注法2

  虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。 继续阅读

中文分词入门之字标注法1

  在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。 继续阅读