分类目录归档:机器翻译

Moses的一些新变化

  看了一下Moses,发现有了一些新变化,特别是Moses整个开源项目几个月之前从Sourceforge上迁移到github上,可见github近来的人气有多旺。另外Moses的编译方式有了很大的改变,之前是Make方式编译,现在改为了bjam;之前依赖的boost库是可选的,现在boost库是必选的,不安装boost库Moses基本上是无法编译成功的。

  具体到操作上,如果是在ubuntu上,可以通过"sudo apt-get install libboost-all-dev"的方式快速的安装boost库,然后check out源代码:
git clone git://github.com/moses-smt/mosesdecoder.git

  Check out下Moses代码之后,如果不考虑整套统计机器翻译平台的搭建,仅仅测试Moses,直接用bjam编译moses就可以了:
cd ~/mosesdecoder
./bjam -j2
-j后的数字代表多核并行编译;

如果一切顺利并允许几个无关紧要的错误的话,编译完成之后会在dist下面生成一个bin和一个lib目录,前者存放可执行的二进制程序,例如moses, moses_chart,后者存放相关的lib库,例如:libmose.a

Step to Step的编译方法可以参考Moses的官方文档:
http://www.statmt.org/moses_steps.html
这个文档的一个问题是没有提示boost的安装,不安装boost,用bjam编译后会遇到很多boost某个库找不到的错误,并且不会生成Moses的二进制文件及Lib库。

另一个重要新闻是Moese的目前的开发由欧盟下的MosesCore项目支持,查了一下这个项目,貌似是今年才立项的,从名字上看,与Moses紧密相关,并且致力于开源统计机器翻译系统在学术界和工业界的推广:

MosesCore is an EU funded Coordination Action, which aims to encourage the development and usage of open source machine translation.

MosesCore draws together academic and commercial partners sharing a common interest in open source machine translation, and will:

Provide coordination and stewardship of the development of open source software for machine translation, notably the Moses statistical MT toolkit. This will result in at least three major releases of Moses, one in each year of the project.

Outreach to the research community through academic workshops, evaluation campaigns and the machine translation marathons.

Outreach to current and potential users of MT by providing a well maintained web presence, an active newsletter, and three annual outreach events for knowledge sharing and tutorial.

Improve interaction between academic and industrial MT stakeholders through both the outreach events and tutorials, and the marathons.

中文翻译技术沙龙第十次活动报名

时间:2011年10月15日(周六)下午14:00-17:00
地点:五道口清华科技园
费用:无

题目1: 开源输入法SunPinyin解读
主讲人:NUANCE公司何楠

题目2: 第13届国际机器翻译峰会(13th MT Summit)和第7届全国机器翻译研讨会(CWMT2011)的分享会
主讲人:部分参会人员,具体名单待定

报名截止日期:10月13日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

NiuTrans: 一套开源的统计机器翻译平台

  晚上在CWMT(China Workshop on Machine Translation)的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件,题为“NiuTrans: 一套开源的统计机器翻译平台”,仔细读了一下,觉得这句话很有分量:“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣,可以去NiuTrans的主页去申请下载,做个测试,NiuTrans的主页见:http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台(LTP)源代码正式对外共享”,而今东北大学也开源了NiuTrans这套统计机器翻译平台,这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件:

各位老师,大家好!

我们实验室经过多个月的努力,NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功,Alpha版源代码正式对外免费发布,目前访问入口显示在我们实验室网站(http://www.nlplab.com)首页左上角。网页上提供了详细的使用说明和高级参数设置方法,并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单,在注册页输入姓名和电子邮件,即可得到动态下载的链接。建议提供正确的电子邮件,这样以后可以随时得到NiuPlan的最新发布和更新信息。

计划一年之内,我们实验室将不断推出NiuPlan不同系列的开源系统,包括Hierarchical phrase-based model,Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。

NiuPlan最终将推出四个系列的开源平台系统:NiuTrans, NiuParser, NiuMining, and NiuKnowledge(暂定名字)系列系统.欢迎同行们免费下载使用,并能够将宝贵建议及时反馈给我们,我们承诺将尽力尽快完善NiuPlan各系列开源系统,在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取.祝好!

Best regards,

Dr. Jingbo Zhu (朱靖波)
Professor(PhD Supervisor), Director
Natural Language Processing Laboratory
Northeastern University
Shenyang, Liaoning, P.R.China
Phone: 0086-24-83672481 (O)(Fax)
Email: zhujingbo at mail.neu.edu.cn
Homepage: http://www.nlplab.com/members/zhujingbo.html

继续阅读

中文机器翻译沙龙第五次活动小结

本次沙龙活动于3月27在清华科技园的泰为公司会议室举行。共有二十四人参加,包括来自泰为、百度、金山、高德、老虎宝典、索爱、Novell、ifeng等公司的人士,以及来自清华、中科院计算所、自动化所、北师大等高校的研究生。另外还有来自东北师大的研究生参加,这是首次有外地的沙龙参与者。

首先由国家知识产权局的王进先生介绍了他在机器翻译领域的研究成果----原型系统和句法分析。王进先生首先介绍了范畴语法,然后基于范畴语法的扩展建立了原型系统。他提出“突破句法范畴,定义语义范畴体系”以及“突破语言结构,定义范畴跳转规则”。然后给出了句法分析的例子,并演示了其构建的翻译系统。王进先生随后就大家感兴趣的问题与大家进行了交流。非常遗憾的是,限于时间关系,未能与王先生展开深入讨论。

然后来自中国科技技术信息研究所的宋培彦博士介绍了HNC(概念层次网络)的理论。我国中文信息处理的三大流派之一的HNC理论,是由中科院声学所的黄曾阳先生所提出的。“虽然世界上有6000多种语言,但概念空间基本稳定,而且互通,这是翻译的基础。” “HNC是对大脑的语言功能进行模拟。”HNC又具体到概念基元空间(HNC1):词汇及语义网络;句类空间(HNC2):句子;语境单元空间(HNC3):句群;语境空间(HNC4):篇章。HNC正在进行的天翼计划——机器翻译,“先理解,后翻译”,不要统计意义上的“硬译”,不要语法形式上的符号转换,直面理解。这些无疑对目前机器翻译的研究具有参考意义。宋博士的介绍深入浅出,使得大多数未接触过HNC的沙龙成员对其有了大概的认知。随后宋博士介绍了其在回指模糊消解方面所做的研究。随后大家就HNC目前的研究和发展状况进行了讨论,宋博士提出了HNC应该走向“通俗化”、“实例化”、“国际化”。

ME for Machine Translation

利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。

Discriminative training and maximum entropy models for statistical macine translation

1. ME 模型是在噪声信道模型的基础上改进而来的。

2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。

3. 噪声信道模型存在的几个问题:

(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。

(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。

(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。

ME Translation Model

由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)

实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:

h1(e,f) = log p (e)

特征2:

h2(e,f) = log p (f|e)

并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。

Alignment Model and Maximum Approximation

另外,在翻译的过程中还有一个很重要的因子------对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。

Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。

Training (a参数的训练)

文中采用的是GIS 算法(Darroch and Ratcliff,1972)。

中文机器翻译沙龙第五次活动报名和第四次活动小结

时间:2011年3月27日(周日)下午14:00-17:00
报名截止日期:3月24日(周四)
地点:五道口清华科技园
费用:无
主讲人:1. 中国科学技术信息研究所宋培彦博士
                2. 国家知识产权局王进先生
题目: HNC相关理论和研究

报名请回复邮箱cmt.salon@gmail.com

中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第四次活动的小结:
本次沙龙活动在清华科技园的有道会议室举行。共有二十四人参加,包括来自有道、百度、腾讯、金山、高德、泰为、老虎宝典、同方知网等公司以及国知局、新华社等单位的人士,以及来自清华、北京语言大学、中科院计算所、北航、北师大等高校的研究生。

本次沙龙的主题是基于语料库的句法研究。大家对于目前应用最广泛的短语结构语法和依存语法进行了深入讨论。虽然目前分词技术相对成熟,但是句法分析是制约自然语言处理的瓶颈。而且分词中的错误可能会在后续处理中放大,来自中科院计算所的同学介绍了目前分词和句法分析以及翻译进行联合处理的技术。

而无论是短语结构语法还是依存语法,这些在英语句法分析中的方法,都很难说是适合汉语的句法分析的。相对于“形合”的英语、日语等语言来说,“意合”的汉语进行句法分析可能无法离开语义分析。大家举了“爱斯基摩的雪”、“英文的sister和中文的姐妹”,“今天星期三”,“这个很冠希”等具体例子,分析了词汇、概念、语义、隐喻等对句法分析的影响。

另外,虽然国外已经有相对成熟的语料库,如宾大。但国内这方面的研究仍然不足。目前的中文语料库建设仍存在很多问题。已有语料库除了不共享、不兼容外,多数是应用于科研和教学。而如何将语料库应用于中文翻译技术的相关研究仍然薄弱。

来自企业界的朋友对于自然语言在特定领域(如财经专利等)的应用提出了自己的想法,还讨论了关心的错别字问题,新词汇问题,问答系统等。

在讨论中,大家都认为目前中文句法分析仍然存在理论上的薄弱,因此建议下次沙龙活动以HNC为主题。另外大家对平行语料库的相关研究也比较感兴趣,可以在以后的沙龙中深入讨论。

中文机器翻译沙龙第四次活动报名和第三次活动小结

时间:2011年3月6日(周日)下午14:00-17:00
报名截止日期:3月3日(周四)
地点:有道会议室(五道口清华科技园)
费用:无
沙龙讨论题目:基于语料库的句法分析

报名请回复邮箱cmt.salon@gmail.com
本次沙龙活动属于自由讨论的性质,如果有希望做主题发言的,请告知。
为了使讨论更深入和有成效,可以告知您感兴趣的子议题。
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第三次活动的小结:
本次聚会如期在上岛咖啡举行。共有十三人参加,包括来自北京大学外国语学院翻译硕士教育中心的王华树老师,东方爱译老总张龙哺先生,以及其他来自公司和高校的对CAT感兴趣的朋友。

本次沙龙的主题是计算机辅助翻译(CAT)的应用现状和问题。大家对于CAT的核心技术问题以及市场问题进行深入讨论。王华树老师结合自己的从业实践和教学体验,针对翻译环境、翻译流程、翻译技术、翻译行业地位等方面同大家进行了探讨,希望大家看清翻译行业面临的根本问题,共同寻找解决的出路。张龙哺先生则介绍了自己长期从事CAT研发的心得体会,包括东方爱译的新一代人工智能翻译技术(TM++、MT+、以及混合翻译模式等),过去在国家专利局的相关科研经历,以及雅信的相关情况。张先生强调国产的软件其实在很多方面比国外的软件更好,更适合中国的应用。其他与会的朋友也各抒己见,就个人研发和使用计算机辅助翻译软件中的问题交换了意见。沙龙在六点左右结束。限于时间,很多问题的讨论还不够深入,王华树老师建议专门对于计算机辅助翻译的评测问题再展开专题研讨。

最后大家大致讨论了下期沙龙的可能的话题,如对句法分等。另外,王华树老师等提出了建立沙龙交流机制(如QQ群组、沙龙论坛和沙龙网站)和管理机制(成员管理),确保沙龙健康发展。

相关链接-王华树老师的博客:http://blog.sina.com.cn/s/blog_6d51f6da0100otmq.html

中文机器翻译沙龙第三次活动报名和第二次活动小结

时间:1月16日(周日)下午14:00-17:00
报名截止日期:1月13日(周四)

地点:海淀区某茶馆,具体地点视报名人数再定

费用:AA制
专题:计算机辅助翻译(CAT)的应用现状和问题
报名请回复邮箱cmt.salon@gmail.com
 
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/
以下是第二次活动的小结:
本次聚会如期在北师大举行。共有七人参加,其中包括两位新成员。参加上次沙龙活动的部分成员,因为临近期末考试等原因,未能前来,非常遗憾。感谢北师大的郭同学热情提供了场地、投影仪、电脑等设施,使本次沙龙活动得以顺利举行。 

本次沙龙的主题是机器翻译评测。基本上以2009年的机器翻译评测大纲和评测总结报告为题材,大家一起组织了共同的学习。在BLEU基础上进行改进的BLEU-SBP是主要的评测方法。另外微软的Woodpecker在汉英评测方向进行了应用,其评测结果与BLUE-SBP有很大的差异。报告认为Woodpecker的评测方法“更加可信”。 

大家也讨论了其他的评测技术,如NIST、GTM、mWER、mPER、ICT以及基于HNC的评测技术。通过本次沙龙活动,大家对目前主流评测技术的特点和不足有了更深的认识。沙龙成员建议将沙龙活动的材料上传到网上,限于条件目前还无法实现。 

另外,大家还讨论了诸如学业与就业的相关问题。最后确定了下次沙龙活动的主题是计算机辅助翻译,时间初步确定在2011年的1月16日。

代友转发:发起成立中文机器翻译定期学术沙龙

  以下文字代友Alex转发,如果哪位读者有水木帐号,恳请转载到“水木自然语言处理版”,非常感谢!Alex从事的是技术翻译相关的工作,对机器翻译比较感兴趣,希望搞个北京地区线下交流的自然语言处理的学术沙龙,主要面向中文机器翻译,也欢迎NLP其他领域的朋友,以下文字系Alex所写:

中文机器翻译是自然语言处理的重要应用领域之一,其跨学科的特点非常显著,涉及了语言学、数学、计算机、认知科学等多种学科。

目前在北京和全国对相关研究感兴趣的人很多,相对分散。仅仅在北京,从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。

鉴于此,拟组织定期学术沙龙活动,在轻松的环境中相互交流学术问题,促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员,也欢迎公司企业界和京外相关人士参加。

有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢!

诗歌翻译与统计机器翻译

  Google Research Blog前几天出了一篇文章“Poetic Machine Translation”,介绍的是Google的机器翻译学者对于“诗歌”进行尝试性的机器翻译,效果比预想要好,相关的研究成果在今年的EMNLP 2010会议上的发表了一篇论文,这个会议这几天正在举行。 继续阅读