标签归档:Moses

Moses的一些新变化

  看了一下Moses,发现有了一些新变化,特别是Moses整个开源项目几个月之前从Sourceforge上迁移到github上,可见github近来的人气有多旺。另外Moses的编译方式有了很大的改变,之前是Make方式编译,现在改为了bjam;之前依赖的boost库是可选的,现在boost库是必选的,不安装boost库Moses基本上是无法编译成功的。

  具体到操作上,如果是在ubuntu上,可以通过"sudo apt-get install libboost-all-dev"的方式快速的安装boost库,然后check out源代码:
git clone git://github.com/moses-smt/mosesdecoder.git

  Check out下Moses代码之后,如果不考虑整套统计机器翻译平台的搭建,仅仅测试Moses,直接用bjam编译moses就可以了:
cd ~/mosesdecoder
./bjam -j2
-j后的数字代表多核并行编译;

如果一切顺利并允许几个无关紧要的错误的话,编译完成之后会在dist下面生成一个bin和一个lib目录,前者存放可执行的二进制程序,例如moses, moses_chart,后者存放相关的lib库,例如:libmose.a

Step to Step的编译方法可以参考Moses的官方文档:
http://www.statmt.org/moses_steps.html
这个文档的一个问题是没有提示boost的安装,不安装boost,用bjam编译后会遇到很多boost某个库找不到的错误,并且不会生成Moses的二进制文件及Lib库。

另一个重要新闻是Moese的目前的开发由欧盟下的MosesCore项目支持,查了一下这个项目,貌似是今年才立项的,从名字上看,与Moses紧密相关,并且致力于开源统计机器翻译系统在学术界和工业界的推广:

MosesCore is an EU funded Coordination Action, which aims to encourage the development and usage of open source machine translation.

MosesCore draws together academic and commercial partners sharing a common interest in open source machine translation, and will:

Provide coordination and stewardship of the development of open source software for machine translation, notably the Moses statistical MT toolkit. This will result in at least three major releases of Moses, one in each year of the project.

Outreach to the research community through academic workshops, evaluation campaigns and the machine translation marathons.

Outreach to current and potential users of MT by providing a well maintained web presence, an active newsletter, and three annual outreach events for knowledge sharing and tutorial.

Improve interaction between academic and industrial MT stakeholders through both the outreach events and tutorials, and the marathons.

NiuTrans: 一套开源的统计机器翻译平台

  晚上在CWMT(China Workshop on Machine Translation)的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件,题为“NiuTrans: 一套开源的统计机器翻译平台”,仔细读了一下,觉得这句话很有分量:“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣,可以去NiuTrans的主页去申请下载,做个测试,NiuTrans的主页见:http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台(LTP)源代码正式对外共享”,而今东北大学也开源了NiuTrans这套统计机器翻译平台,这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件:

各位老师,大家好!

我们实验室经过多个月的努力,NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功,Alpha版源代码正式对外免费发布,目前访问入口显示在我们实验室网站(http://www.nlplab.com)首页左上角。网页上提供了详细的使用说明和高级参数设置方法,并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单,在注册页输入姓名和电子邮件,即可得到动态下载的链接。建议提供正确的电子邮件,这样以后可以随时得到NiuPlan的最新发布和更新信息。

计划一年之内,我们实验室将不断推出NiuPlan不同系列的开源系统,包括Hierarchical phrase-based model,Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。

NiuPlan最终将推出四个系列的开源平台系统:NiuTrans, NiuParser, NiuMining, and NiuKnowledge(暂定名字)系列系统.欢迎同行们免费下载使用,并能够将宝贵建议及时反馈给我们,我们承诺将尽力尽快完善NiuPlan各系列开源系统,在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取.祝好!

Best regards,

Dr. Jingbo Zhu (朱靖波)
Professor(PhD Supervisor), Director
Natural Language Processing Laboratory
Northeastern University
Shenyang, Liaoning, P.R.China
Phone: 0086-24-83672481 (O)(Fax)
Email: zhujingbo at mail.neu.edu.cn
Homepage: http://www.nlplab.com/members/zhujingbo.html

继续阅读

Moses最新版本发布

  统计机器翻译开源工具Moses的主要负责人之一Hieu Hoang,也是Moses代码的最大贡献者在3月28日的邮件列表里发布了一个通知“Moses release”,除了告知最新的Moses源代码包的下载地址外,还列出了自上一次发布之后的12点改进,这些改进来自于Moses开源社区许许多多开发者的贡献。以下是Hieu Hoang的全文: 继续阅读

Moses近期动态及其他

  由于工作的关系,有一段时间没有仔细关注过统计机器翻译开源系统Moses了。前些天看到哈工大郎君师兄的文章《钱老与Moses》以及近段时间有读者询问一些和Moses相关的问题,就又回到Moses的主页和它的邮件列表中找寻一些感觉。 继续阅读

第五届全国机器翻译研讨会后续

  第五届全国机器翻译研讨会已于10月16日至17日在南京大学举行完毕,虽未亲自参加整个会议,但是还是比较关注这次会议的一些情况。从师弟那里得知,明年由于COLING 2010在北京举行,将不再举办机器翻译研讨会。而后年由于第十三届机器翻译峰会将在厦门举行,第六届全国机器翻译研讨会将紧随机器翻译峰会在厦门举办。 继续阅读

语言模型工具IRSTLM安装及试用手记

  Moses目前支持三个语言模型工具包:SRILM(The SRI language modeling toolkit),IRSTLM(IRST language modeling toolkit)和RandLM(the RandLM language modeling toolkit). SRILM我已经多次介绍过了,这里再介绍一下IRSTLM。 继续阅读

EuroMatrix与开放精神

  打开SMT官网主页下的这个页面:http://www.statmt.org/matrix/,会发现一个漂亮的“欧洲矩阵(Euro Matrix)”,这是一个由11*11小方块组成的矩阵:在其对角线上,有欧洲11个国家的名字和国旗;而对角线之外的小方块里,则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值,而这幅图的背后,则是宏伟的EuroMatrix工程! 继续阅读

神奇的约翰霍普金斯夏季研讨会

  Google吴军在《数学之美系列八》里讲贾里尼克(Frederick Jelinek)的故事时,说他离开IBM后去约翰霍普金斯大学建立了世界著名的CLSP实验室,每年夏天都会邀请世界上20-30名顶级的科学家和学生到CLSP一起工作,使得CLSP成为世界上语音和语言处理的中心之一。 继续阅读

Moses中模型训练的并行化问题

  众所周知,在Moses中除了语言模型的训练是利用srilm的ngram-count模块单独训练外,其它模型的训练都是利用train-factored-phrase-model.perl模型训练脚本进行一站式训练 继续阅读