月度归档:2010年03月

Moses最新版本发布

  统计机器翻译开源工具Moses的主要负责人之一Hieu Hoang,也是Moses代码的最大贡献者在3月28日的邮件列表里发布了一个通知“Moses release”,除了告知最新的Moses源代码包的下载地址外,还列出了自上一次发布之后的12点改进,这些改进来自于Moses开源社区许许多多开发者的贡献。以下是Hieu Hoang的全文: 继续阅读

Beautiful Data-统计语言模型的应用三:分词5

  上一节我们已经解读了Pdist类中的__init__函数,这一节重点关注一下Python类中的__call__函数。首先简单的回顾一下上一节提到的一段话:缺省的情况,对于未知的单词,其概率均为1/N,但是对于每一个实例,Pdist均提供一个函数重载这个缺省值。为了避免过长 的单词拥有过高的概率,我们从概率10/N出发,对于候选单词的每一个字母都除以10。 继续阅读

第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2

  继续转载《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,这一部分主要介绍的是NIST2009机器翻译评测研讨会。 继续阅读

Google's Python Class

  自然语言处理和脚本语言的关系还是很密切的,我一直比较喜欢用Perl,不过因为NLTK的缘故,我学习了一下Python,也立即被Python的严谨所征服。印象《Learning Python》中提到了Perl和Python的一段八卦:Perl的发明者是语言学家,而Python的发明者则是数学科班出身,因此前者崇尚自由,而后者推崇严谨。大意如此,但是对于Perl和Python,我同样受用,该用哪个时就用哪个,没必要比较。 继续阅读

第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介1

  本文选自《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,将分为两部分分别介绍第十二届机器翻译峰会和NIST2009机器翻译评测研讨会。 继续阅读

ACL-IJCNLP 2009 评述节选

  晚上师弟传给我两篇《中文信息学报》09年第6期的文章:东芝(中国) 研究开发中心王海峰老师的《ACL-IJCNLP 2009 评述》以及中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》,读后感觉写得很不错,估计有些读者还未见到原文,计划在52nlp上分别节选一部分内容,分享一下这些与会专家的感受。 继续阅读

Beautiful Data-统计语言模型的应用三:分词4

  对于Pw函数,这里稍微多做一点说。首先我们从一元语言模型的文件里读取单词及其计数,如果一个单词在语料库中出现,它的概率就是Count(word)/N,这里N是语料库的单词数目的规模。事实上,相对于使用完整的1千3百万单词(词型)的一元语言模型,Peter Norvig大牛对这个一元语言模型进行了简化:(a) 创建了一个更通用的词汇表,并且其中的单词是大小写不敏感(不区分)的,故“the”,”The”以及“THE”的计数是加在一起作为“the”的计数的;(b)只有由字母(letter)组合的单词才被计入其中,而对于其他包含数字或者标点的“单词”则被过滤,故“+170.002”以及“can’t”都不会被计入;(c)只列出其中最常用的1百万单词中的前1/3,也就是333333个单词。 继续阅读

Beautiful Data-统计语言模型的应用三:分词3

  本节我们进入《Beautiful Data》中分词的编码阶段,完整的程序及数据大家可以在“Natural Language Corpus Data: Beautiful Data”上下载ngrams.zip,我这里主要做一些解读。程序由python实现,无论在Linux或者Windows平台下,只要安装了相应的python版本,程序均可以通过测试,不过我所使用的是python2.6,注意,在python3.0上会有一些问题。 继续阅读

感谢ExWebs,回归Host2ez

  晚上把“我爱自然语言处理”从ExWebs提供的免费空间上转移到Host2ez,加上前两天已经转移了“自然语言处理百科”,至此,从去年4月5日至今的11个月里,对于ExWebs所提供的免费空间,无论访问速度还是稳定性,我个人非常满意,这里表示感谢! 继续阅读