标签归档:中文信息处理

中文机器翻译沙龙第五次活动小结

AINLP

本次沙龙活动于3月27在清华科技园的泰为公司会议室举行。共有二十四人参加,包括来自泰为、百度、金山、高德、老虎宝典、索爱、Novell、ifeng等公司的人士,以及来自清华、中科院计算所、自动化所、北师大等高校的研究生。另外还有来自东北师大的研究生参加,这是首次有外地的沙龙参与者。

首先由国家知识产权局的王进先生介绍了他在机器翻译领域的研究成果----原型系统和句法分析。王进先生首先介绍了范畴语法,然后基于范畴语法的扩展建立了原型系统。他提出“突破句法范畴,定义语义范畴体系”以及“突破语言结构,定义范畴跳转规则”。然后给出了句法分析的例子,并演示了其构建的翻译系统。王进先生随后就大家感兴趣的问题与大家进行了交流。非常遗憾的是,限于时间关系,未能与王先生展开深入讨论。

然后来自中国科技技术信息研究所的宋培彦博士介绍了HNC(概念层次网络)的理论。我国中文信息处理的三大流派之一的HNC理论,是由中科院声学所的黄曾阳先生所提出的。“虽然世界上有6000多种语言,但概念空间基本稳定,而且互通,这是翻译的基础。” “HNC是对大脑的语言功能进行模拟。”HNC又具体到概念基元空间(HNC1):词汇及语义网络;句类空间(HNC2):句子;语境单元空间(HNC3):句群;语境空间(HNC4):篇章。HNC正在进行的天翼计划——机器翻译,“先理解,后翻译”,不要统计意义上的“硬译”,不要语法形式上的符号转换,直面理解。这些无疑对目前机器翻译的研究具有参考意义。宋博士的介绍深入浅出,使得大多数未接触过HNC的沙龙成员对其有了大概的认知。随后宋博士介绍了其在回指模糊消解方面所做的研究。随后大家就HNC目前的研究和发展状况进行了讨论,宋博士提出了HNC应该走向“通俗化”、“实例化”、“国际化”。

Matrix67:漫话中文分词算法

AINLP

注:这是今天在Matrix67上看到的关于中文分词的文章,粗略的读了一遍,觉得Matrix67能把中文分词的一些关键问题如此“漫话”开来,不愧是北大中文系的牛人!以下文章转自于Matrix67的“漫话中文分词算法”,有兴趣的读者可以移步到他的blog观赏。

记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进 行研究,期间诞生了很多有意思的理论。

中文分词的主要困难在于分词歧义。“结婚的和尚未结婚的”,应该分成“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/ 的”?人来判断很容易,要交给计算机来处理就麻烦了。问题的关键就是,“和尚未”里的“和尚”也是一个词,“尚未”也是一个词,从计算机的角度看上去,两 者似乎都有可能。对于计算机来说,这样的分词困境就叫做“交集型歧义”。

有时候,交集型歧义的“歧义链”有可能会更长。“中外科学名著”里,“中外”、“外科”、“科学”、“学名”、“名著”全是词,光从词库的 角度来看,随便切几刀下去,得出的切分都是合理的。类似的例子数不胜数,“提高产品质量”、“鞭炮声响彻夜空”、“努力学习语法规则”等句子都有这样的现 象。在这些极端例子下,分词算法谁优谁劣可谓是一试便知。
继续阅读

代友转发:发起成立中文机器翻译定期学术沙龙

AINLP

  以下文字代友Alex转发,如果哪位读者有水木帐号,恳请转载到“水木自然语言处理版”,非常感谢!Alex从事的是技术翻译相关的工作,对机器翻译比较感兴趣,希望搞个北京地区线下交流的自然语言处理的学术沙龙,主要面向中文机器翻译,也欢迎NLP其他领域的朋友,以下文字系Alex所写:

中文机器翻译是自然语言处理的重要应用领域之一,其跨学科的特点非常显著,涉及了语言学、数学、计算机、认知科学等多种学科。

目前在北京和全国对相关研究感兴趣的人很多,相对分散。仅仅在北京,从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。

鉴于此,拟组织定期学术沙龙活动,在轻松的环境中相互交流学术问题,促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员,也欢迎公司企业界和京外相关人士参加。

有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢!

推荐张华平老师的中文分词工具ICTCLAS2010

AINLP

  在国内的自然语言处理领域,估计没有人不知道大名鼎鼎的中文分词工具ICTCLAS了,所以用不着我来推荐。不过今天收到ICTCLAS的作者张华平老师的来信,希望我这里收录一下他最近刚发布的ICTCLAS2010共享版本,这个版本对于研究人员非商业免费使用一年,所以在这里做个推荐,非常感谢张老师对于中文信息处理领域的贡献! 继续阅读

中文分词入门之最大匹配法扩展2

AINLP

  在进入正题之前,还是先说两句篇外话,上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg,相似的,python版mmseg的作者fakechris也在这里留了言:

你好,我是pychseg的作者,一直没时间加上download,大家check out源代码就可以用了。。。

继续阅读

中文分词入门之篇外

AINLP

  这篇不是计划内的“中文分词入门系列”,所以称之为篇外。上一篇《中文分词入门之最大匹配法扩展1》提到了MMSEG国内的一些情况:

  不过国内也有该文的简介文章:《MMSeg分词算法简述》,原文似乎出自“www.solol.org”,但是我一直没打开这个网站,因为Java版的mmesg也是其提供的,不知道是已经关闭了还是被“墙”了。另外,leeing也翻译了全文《MMSEG 中文分词算法》,我粗略的读了一下,感觉翻译的不错。

继续阅读

中文分词入门之最大匹配法扩展1

AINLP

  这里曾写过《中文分词入门之最大匹配法》,并且获得了很高的关注度,不过现在回头来看,这个方法只是最初级的中文分词匹配方法。事实上,很多学者都基于简单的中文分词匹配法做了扩展,其中比较有名的就是台湾蔡志浩老师1996年写的“MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm”,在这篇文章的页面中,不仅介绍了相关的中文分词算法,并且提供了一个C版本的mmseg供研究使用,目前根据该文及其代码移植的mmseg程序版本包括C++版、Java版、Python版及Ruby版,影响甚广。 继续阅读

中文分词入门之字标注法2

AINLP

  虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。 继续阅读

中文分词入门之字标注法1

AINLP

  在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。 继续阅读

中文分词入门之文献

AINLP

  上一节谈了中文分词的资源问题,有了这一基础条件,如果读者对中文分词感兴趣,就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻,不仅仅针对中文分词,对于自然语言处理的初学者来说,即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解,而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。 继续阅读