标签归档:SMT

支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布

Deep Learning Specialization on Coursera

以下是来自东北大学自然语言处理实验室朱靖波老师发给CWMT群的邮件:支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布。感谢东北大学对于机器翻译开源事业的贡献!

各位同行朋友们,大家好!

经过一年的努力,今天NiuTrans ver1.0.0 测试版终于正式发布。在上个版本的基础上,新增了三个句法模型: tree-to-string, string-to-tree and tree-to-tree. 这样目前完整版已经支持了SMT目前主流的五个模型,供同行们SMT研究之用。同时也发布了新的较完整的NiuTrans英文版Manual,供大家使用NiuTrans时参考使用。

访问入口显示在东北大学自然语言处理实验室网站(http://www.nlplab.com)首页左上角。另外同时我们开通了NiuTrans新浪微博(http://weibo.com/niutrans),将实时报道NiuTrans的研发进展情况,也便于大家与我们NiuTrans研发团队的互动交流。

NiuTrans将在ACL2012进行演示,为此我们赶在ACL前夕和NiuTrans开源一周年之际发布标准版。但在研发期间我们发现句法模型的实现难度比较高,因此将目前版本称为测试版。希望大家顺便帮助测试一下,使用过程中如发现问题的话,即时告诉我们。最近我们将不断深入测试和改进NiuTrans句法模型,并将及时发布,希望大家注意关注。在此,我代表NiuTrans开发组非常感谢大家的关注,欢迎大家给我们提建议和批评指正,也可以直接e-mail to niutrans at mail.neu.edu.cn,NiuTrans研发团队会及时回答大家的问题。

祝大家身体健康,快乐开心。

Best regards,

Jingbo Zhu (朱靖波)
Natural Language Processing Laboratory
Northeastern University

Moses的一些新变化

Deep Learning Specialization on Coursera

  看了一下Moses,发现有了一些新变化,特别是Moses整个开源项目几个月之前从Sourceforge上迁移到github上,可见github近来的人气有多旺。另外Moses的编译方式有了很大的改变,之前是Make方式编译,现在改为了bjam;之前依赖的boost库是可选的,现在boost库是必选的,不安装boost库Moses基本上是无法编译成功的。

  具体到操作上,如果是在ubuntu上,可以通过"sudo apt-get install libboost-all-dev"的方式快速的安装boost库,然后check out源代码:
git clone git://github.com/moses-smt/mosesdecoder.git

  Check out下Moses代码之后,如果不考虑整套统计机器翻译平台的搭建,仅仅测试Moses,直接用bjam编译moses就可以了:
cd ~/mosesdecoder
./bjam -j2
-j后的数字代表多核并行编译;

如果一切顺利并允许几个无关紧要的错误的话,编译完成之后会在dist下面生成一个bin和一个lib目录,前者存放可执行的二进制程序,例如moses, moses_chart,后者存放相关的lib库,例如:libmose.a

Step to Step的编译方法可以参考Moses的官方文档:
http://www.statmt.org/moses_steps.html
这个文档的一个问题是没有提示boost的安装,不安装boost,用bjam编译后会遇到很多boost某个库找不到的错误,并且不会生成Moses的二进制文件及Lib库。

另一个重要新闻是Moese的目前的开发由欧盟下的MosesCore项目支持,查了一下这个项目,貌似是今年才立项的,从名字上看,与Moses紧密相关,并且致力于开源统计机器翻译系统在学术界和工业界的推广:

MosesCore is an EU funded Coordination Action, which aims to encourage the development and usage of open source machine translation.

MosesCore draws together academic and commercial partners sharing a common interest in open source machine translation, and will:

Provide coordination and stewardship of the development of open source software for machine translation, notably the Moses statistical MT toolkit. This will result in at least three major releases of Moses, one in each year of the project.

Outreach to the research community through academic workshops, evaluation campaigns and the machine translation marathons.

Outreach to current and potential users of MT by providing a well maintained web presence, an active newsletter, and three annual outreach events for knowledge sharing and tutorial.

Improve interaction between academic and industrial MT stakeholders through both the outreach events and tutorials, and the marathons.

Moses最新版本发布

Deep Learning Specialization on Coursera

  统计机器翻译开源工具Moses的主要负责人之一Hieu Hoang,也是Moses代码的最大贡献者在3月28日的邮件列表里发布了一个通知“Moses release”,除了告知最新的Moses源代码包的下载地址外,还列出了自上一次发布之后的12点改进,这些改进来自于Moses开源社区许许多多开发者的贡献。以下是Hieu Hoang的全文: 继续阅读

机器翻译新闻一则

Deep Learning Specialization on Coursera

  今天在新浪科技上看到了“东芝开发智能手机英汉日翻译软件”这则新闻,比较感兴趣!虽然“统计机器翻译”这些年如火如荼,但是在商业化的道路上似乎还是老大哥“基于规则的机器翻译”更加成熟。比较感兴趣的是东芝这款产品是如何解决统计机器翻译所占的的资源问题,即使在PC上,SMT所占的资源有时都让人咋舌,所以感觉SMT更适合Google这类在线翻译模式,不知东芝是如何在手机上解决这个问题的。 继续阅读

统计机器翻译英雄谱一:Franz Josef Och

Deep Learning Specialization on Coursera

  一直想写一下统计机器翻译领域的英雄谱,不过这方面自己把握的还不足。前些天计算所刘洋师兄在这里留言,可能有的读者没有注意到,他细数了几位SMT牛人的贡献,写得很好 继续阅读

欧洲议会平行语料库介绍

Deep Learning Specialization on Coursera

  平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。 继续阅读

SMT经典再回首之Brown90:强大的作者阵容

Deep Learning Specialization on Coursera

  上次说到Brown当时是工作在IBM语音识别实验室的,我们还是先看看Google吴军“数学之美”系列中是如何介绍当时IBM华生实验室语音识别小组的,在“贾里尼克的故事和现代语言处理”中这样描述: 继续阅读

SMT经典再回首之Brown90:远见卓识

Deep Learning Specialization on Coursera

  最近在做毕业论文,又回头仔细阅读统计机器翻译(SMT)的相关论文。重读经典的过程发现了一些当初读的时候根本无法体会的东西,于是计划写一些心得感受,啰嗦之处,请读者见谅。本周计划写三篇关于Bown90的系列文章:远见卓识,统计机器翻译与语音识别,强大的作者阵容。 继续阅读

机器翻译的八大挑战

Deep Learning Specialization on Coursera

  偶然读到EuroMatrix项目联络人Hans Uszkopeit教授(德国萨尔兰大学计算语言学教授,德国人工智能研究中心(DFKI)主任及DFKI语言技术实验室首席研究员)09年一月份的一个报告,上面提到机器翻译八个主要研究挑战(Main Research Challenges),觉得很有启发性,这里引述如下 继续阅读