分类目录归档:中文信息处理

中文分词入门之字标注法2

  虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。

发表在 中文信息处理, 中文分词 | 标签为 , , , , , , , , | 4 条评论

中文分词入门之字标注法1

  在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。

发表在 中文信息处理, 中文分词 | 标签为 , , , , , , , , , | 6 条评论

中文分词入门之文献

  上一节谈了中文分词的资源问题,有了这一基础条件,如果读者对中文分词感兴趣,就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻,不仅仅针对中文分词,对于自然语言处理的初学者来说,即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解,而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。

发表在 中文信息处理, 中文分词 | 标签为 , , , , , , , , | 留下评论

中文分词入门之资源

  作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。

发表在 中文信息处理, 中文分词 | 标签为 , , , , , , , , , | 19 条评论

LDC上免费的中文信息处理资源

  著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。

发表在 中文信息处理, 自然语言处理 | 标签为 , , , , , , , | 留下评论