分类目录归档:机器翻译

“翻译技术沙龙”第十三次活动详情与小结

Deep Learning Specialization on Coursera

本次活动在外研社大厦的第四会议室举行,共有近40人参加,其中包括来自北京大学、北京戏曲艺术学院、中科院、河北大学等大学的高校教师和研究员,来自北京大学、北京语言大学、中科院等高校的研究生、博士生,来自北京语智云帆、Transoo、上智瑞达等技术开发公司的代表,来自赛门铁克、太科石油等公司的企业代表,来自外研社的场地赞助方代表,还有其他众多语言服务行业的从业者和爱好者。

本次活动分为两个阶段:自由发言阶段和自由讨论阶段。

活动正式开始前,外研社的李鸿飞先生代表外研社向在座的与会人员致辞,欢迎大家到外研社参加此次活动。

自由发言阶段由北京语智云帆公司的总经理魏勇鹏主持,与会人员围绕典型译后编辑、机器翻译产品介绍及使用体验;译后编辑工作模式的效用分析;译后编辑工作模式的流程及注意事项;译后编辑所需的技术及工具支持;译后编辑所需的培训工作等五个议题进行自由发言。

典型译后编辑、机器翻译产品介绍及使用体验:

语智云帆公司的曲丽君女士为在场的与会人员分享了她使用谷歌译者工具包(GTT,Google Translator Toolkit)的使用体验,她提到GTT具有所见即所得的编辑器,除基本的编辑功能外,其对原文格式的保留较好,译员还可以在翻译过程中添加评论;GTT内嵌开放的评分系统,用户可以对译文进行打分;GTT可直接翻译维基百科等网站的网页;GTT支持上传和下载术语库、翻译记忆库;GTT具备多人协作和在线聊天功能。

随后,来自北京大学的杨德林同学补充了几点他对GTT的看法,他认为目前GTT支持的文件类型太少,文件大小有限制,无法导出双语对照文件等。

Transso公司的仝立铭先生和北京大学王华树老师就在线CAT工具如何进行服务器之间的共享,如何提高服务响应速度,CAT工具如何遵循统一的xliff标准发表了自己的观点。

译国译民公司的张琼心女士分享了他们在实际翻译工作中的工作流程,他们会首先对稿件进行译前处理,随后使用CAT工具进行翻译,翻译完成后进行译后编辑(她主要提到的是人工翻译后的译后编辑工作)。

Transoo公司的仝立铭先生随后介绍了他们正在开发的CAT工具的相关情况。

译后编辑工作模式的效用分析:

某著名跨国IT企业代表介绍了其使用Systran等系统进行机器翻译的经验,她提出在实际工作中,公司会为下级服务提供商给出机器翻译的结果,服务提供商会在机器翻译的基础上进行译后编辑。

随后,太科石油的吕经理提出了他们对CAT工具的基本需求,并指出他们目前遇到的最大问题是如何提高校对效率和质量的问题。

来自河北大学的张成智老师讲述了他使用谷歌翻译的感受,他认为谷歌翻译的结果会给他提供一些翻译的思路,帮助他组织语言,谷歌翻译会提示许多词汇的翻译结果,谷歌翻译能够节省翻译的时间。北京大学的杨德林同学补充道,谷歌翻译质量的高低同文件类型领域密切相关。

语智云帆公司的魏勇鹏介绍了一款名为PET的工具,该工具可用于对不同的机器翻译结果进行评测,功能包括记录译后编辑时间、键盘敲击记录、定制评分等。

译后编辑工作模式的流程及注意事项:

语智云帆公司的韩林涛介绍了一篇来自TAUS的文章:“MACHINE TRANSLATION POSTEDITING GUIDELINES”,该指南主要是帮助客户和服务提供商设定清晰的使用译后编辑器的期望。

来自中科院计算所的骆卫华先生和魏勇鹏补充了他们认为的译后编辑的基本要求。

译后编辑所需的技术及工具支持:

骆卫华先生介绍了客户对机器翻译结果的看法,他指出许多客户只是想利用机器翻译,而并不关心机器翻译如何工作;客户对机器翻译有不少负面评价,比如译文不可用,修改译文耗费时间等;他提出对机器翻译的需求需要进行仔细鉴定;最后他介绍了目前机器翻译的两种基本方法,基于规则的方法和基于统计的方法。

来自中科院的博士生刘汇丹补充了基于规则的机器翻译方法的相关问题,提出可以进行多引擎结合导出最佳译文。

魏勇鹏随后介绍他正在从事的技术开发工作,他首先讲解了领域语料库的加工方法,提出目前亟需建立专业知识库,建立实体之间的关系,确定相关标准;他提出需要将用户行为与机器翻译结果结合起来。

Transoo公司的唐义会先生提出了机器翻译后的内容再次被翻译的问题。

译后编辑所需的培训工作:

来自北京大学的高志军老师首先介绍北京大学语言信息工程系目前正在进行的相关培训工作,随后指出了统计方法和规则方法之中遇到的问题。

来自北京大学的王华树老师随后介绍了译后编辑的范畴问题,如什么是译后编辑,广义的和狭义的译后编辑分别是什么;他还介绍了译前译中译后编辑环境相关问题,如翻译编辑器的界面如何设计、界面的灵活性如何处理、术语和记忆库的选择问题、第三方资源的利用问题、如何更好得提高翻译效率等。

自由讨论阶段由北京大学的王华树老师主持。

中科院软件所的代表向与会人员介绍了他们正在研发的汉藏计算机辅助翻译系统。该系统主要结合政府相关的语料,具备基本的翻译编辑功能,支持句段的合并和拆分、术语添加、译文修改等,拥有定制化的输入法和词典。

随后,王华树老师通过一组精彩的幻灯片向与会人员介绍了目前主流的计算机辅助翻译工具的界面和特色。同时,他还根据自己的经验分析了未来一段时间计算机辅助翻译工具的发展趋势,如去格式化、可视化、语境化、网络协作式、开源、语音翻译、机器翻译和翻译记忆整合、工具多功能整合,以及云翻译等。

自由讨论阶段以及中途休息时间,与会的人员还根据今天讨论的话题和自身的工作经验进行了非常热烈的讨论。

最后,参与本次活动的部分人员在外研社大厦门前合影留念,本次活动正式结束。

请大家在新浪微博上多多关注@中文翻译技术沙龙、@一本词典。

支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布

Deep Learning Specialization on Coursera

以下是来自东北大学自然语言处理实验室朱靖波老师发给CWMT群的邮件:支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布。感谢东北大学对于机器翻译开源事业的贡献!

各位同行朋友们,大家好!

经过一年的努力,今天NiuTrans ver1.0.0 测试版终于正式发布。在上个版本的基础上,新增了三个句法模型: tree-to-string, string-to-tree and tree-to-tree. 这样目前完整版已经支持了SMT目前主流的五个模型,供同行们SMT研究之用。同时也发布了新的较完整的NiuTrans英文版Manual,供大家使用NiuTrans时参考使用。

访问入口显示在东北大学自然语言处理实验室网站(http://www.nlplab.com)首页左上角。另外同时我们开通了NiuTrans新浪微博(http://weibo.com/niutrans),将实时报道NiuTrans的研发进展情况,也便于大家与我们NiuTrans研发团队的互动交流。

NiuTrans将在ACL2012进行演示,为此我们赶在ACL前夕和NiuTrans开源一周年之际发布标准版。但在研发期间我们发现句法模型的实现难度比较高,因此将目前版本称为测试版。希望大家顺便帮助测试一下,使用过程中如发现问题的话,即时告诉我们。最近我们将不断深入测试和改进NiuTrans句法模型,并将及时发布,希望大家注意关注。在此,我代表NiuTrans开发组非常感谢大家的关注,欢迎大家给我们提建议和批评指正,也可以直接e-mail to niutrans at mail.neu.edu.cn,NiuTrans研发团队会及时回答大家的问题。

祝大家身体健康,快乐开心。

Best regards,

Jingbo Zhu (朱靖波)
Natural Language Processing Laboratory
Northeastern University

Moses的一些新变化

Deep Learning Specialization on Coursera

  看了一下Moses,发现有了一些新变化,特别是Moses整个开源项目几个月之前从Sourceforge上迁移到github上,可见github近来的人气有多旺。另外Moses的编译方式有了很大的改变,之前是Make方式编译,现在改为了bjam;之前依赖的boost库是可选的,现在boost库是必选的,不安装boost库Moses基本上是无法编译成功的。

  具体到操作上,如果是在ubuntu上,可以通过"sudo apt-get install libboost-all-dev"的方式快速的安装boost库,然后check out源代码:
git clone git://github.com/moses-smt/mosesdecoder.git

  Check out下Moses代码之后,如果不考虑整套统计机器翻译平台的搭建,仅仅测试Moses,直接用bjam编译moses就可以了:
cd ~/mosesdecoder
./bjam -j2
-j后的数字代表多核并行编译;

如果一切顺利并允许几个无关紧要的错误的话,编译完成之后会在dist下面生成一个bin和一个lib目录,前者存放可执行的二进制程序,例如moses, moses_chart,后者存放相关的lib库,例如:libmose.a

Step to Step的编译方法可以参考Moses的官方文档:
http://www.statmt.org/moses_steps.html
这个文档的一个问题是没有提示boost的安装,不安装boost,用bjam编译后会遇到很多boost某个库找不到的错误,并且不会生成Moses的二进制文件及Lib库。

另一个重要新闻是Moese的目前的开发由欧盟下的MosesCore项目支持,查了一下这个项目,貌似是今年才立项的,从名字上看,与Moses紧密相关,并且致力于开源统计机器翻译系统在学术界和工业界的推广:

MosesCore is an EU funded Coordination Action, which aims to encourage the development and usage of open source machine translation.

MosesCore draws together academic and commercial partners sharing a common interest in open source machine translation, and will:

Provide coordination and stewardship of the development of open source software for machine translation, notably the Moses statistical MT toolkit. This will result in at least three major releases of Moses, one in each year of the project.

Outreach to the research community through academic workshops, evaluation campaigns and the machine translation marathons.

Outreach to current and potential users of MT by providing a well maintained web presence, an active newsletter, and three annual outreach events for knowledge sharing and tutorial.

Improve interaction between academic and industrial MT stakeholders through both the outreach events and tutorials, and the marathons.

中文翻译技术沙龙第十次活动报名

Deep Learning Specialization on Coursera

时间:2011年10月15日(周六)下午14:00-17:00
地点:五道口清华科技园
费用:无

题目1: 开源输入法SunPinyin解读
主讲人:NUANCE公司何楠

题目2: 第13届国际机器翻译峰会(13th MT Summit)和第7届全国机器翻译研讨会(CWMT2011)的分享会
主讲人:部分参会人员,具体名单待定

报名截止日期:10月13日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

NiuTrans: 一套开源的统计机器翻译平台

Deep Learning Specialization on Coursera

  晚上在CWMT(China Workshop on Machine Translation)的邮件组里看到东北大学自然语言处理实验室朱靖波老师的邮件,题为“NiuTrans: 一套开源的统计机器翻译平台”,仔细读了一下,觉得这句话很有分量:“内部测试结果显示性能和速度稳定优于Moses”,如果读者感兴趣,可以去NiuTrans的主页去申请下载,做个测试,NiuTrans的主页见:http://www.nlplab.com/NiuPlan/NiuTrans.html。前不久“哈工大语言技术平台(LTP)源代码正式对外共享”,而今东北大学也开源了NiuTrans这套统计机器翻译平台,这些对于致力于中文信息处理的NLPer来说都是好消息。以下内容全文转载自朱靖波老师的邮件:

各位老师,大家好!

我们实验室经过多个月的努力,NiuPlan的第一个NiuTrans系列系统-基于短语的统计机器翻译系统终于打包成功,Alpha版源代码正式对外免费发布,目前访问入口显示在我们实验室网站(http://www.nlplab.com)首页左上角。网页上提供了详细的使用说明和高级参数设置方法,并且还提供了部分样本数据用于学习如何使用NiuTrans. 内部测试结果显示性能和速度稳定优于Moses.系统代码的下载方式非常简单,在注册页输入姓名和电子邮件,即可得到动态下载的链接。建议提供正确的电子邮件,这样以后可以随时得到NiuPlan的最新发布和更新信息。

计划一年之内,我们实验室将不断推出NiuPlan不同系列的开源系统,包括Hierarchical phrase-based model,Syntax-based model (string-to-tree/tree-to-string/tree-to-tree)和基于统计的句法分析系统开源平台等。

NiuPlan最终将推出四个系列的开源平台系统:NiuTrans, NiuParser, NiuMining, and NiuKnowledge(暂定名字)系列系统.欢迎同行们免费下载使用,并能够将宝贵建议及时反馈给我们,我们承诺将尽力尽快完善NiuPlan各系列开源系统,在此感谢各位的使用和对现有Bug的容忍。所有系统可以从我们实验室网站上获取.祝好!

Best regards,

Dr. Jingbo Zhu (朱靖波)
Professor(PhD Supervisor), Director
Natural Language Processing Laboratory
Northeastern University
Shenyang, Liaoning, P.R.China
Phone: 0086-24-83672481 (O)(Fax)
Email: zhujingbo at mail.neu.edu.cn
Homepage: http://www.nlplab.com/members/zhujingbo.html

继续阅读

中文机器翻译沙龙第五次活动小结

Deep Learning Specialization on Coursera

本次沙龙活动于3月27在清华科技园的泰为公司会议室举行。共有二十四人参加,包括来自泰为、百度、金山、高德、老虎宝典、索爱、Novell、ifeng等公司的人士,以及来自清华、中科院计算所、自动化所、北师大等高校的研究生。另外还有来自东北师大的研究生参加,这是首次有外地的沙龙参与者。

首先由国家知识产权局的王进先生介绍了他在机器翻译领域的研究成果----原型系统和句法分析。王进先生首先介绍了范畴语法,然后基于范畴语法的扩展建立了原型系统。他提出“突破句法范畴,定义语义范畴体系”以及“突破语言结构,定义范畴跳转规则”。然后给出了句法分析的例子,并演示了其构建的翻译系统。王进先生随后就大家感兴趣的问题与大家进行了交流。非常遗憾的是,限于时间关系,未能与王先生展开深入讨论。

然后来自中国科技技术信息研究所的宋培彦博士介绍了HNC(概念层次网络)的理论。我国中文信息处理的三大流派之一的HNC理论,是由中科院声学所的黄曾阳先生所提出的。“虽然世界上有6000多种语言,但概念空间基本稳定,而且互通,这是翻译的基础。” “HNC是对大脑的语言功能进行模拟。”HNC又具体到概念基元空间(HNC1):词汇及语义网络;句类空间(HNC2):句子;语境单元空间(HNC3):句群;语境空间(HNC4):篇章。HNC正在进行的天翼计划——机器翻译,“先理解,后翻译”,不要统计意义上的“硬译”,不要语法形式上的符号转换,直面理解。这些无疑对目前机器翻译的研究具有参考意义。宋博士的介绍深入浅出,使得大多数未接触过HNC的沙龙成员对其有了大概的认知。随后宋博士介绍了其在回指模糊消解方面所做的研究。随后大家就HNC目前的研究和发展状况进行了讨论,宋博士提出了HNC应该走向“通俗化”、“实例化”、“国际化”。

ME for Machine Translation

Deep Learning Specialization on Coursera

利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。

Discriminative training and maximum entropy models for statistical macine translation

1. ME 模型是在噪声信道模型的基础上改进而来的。

2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。

3. 噪声信道模型存在的几个问题:

(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。

(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。

(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。

ME Translation Model

由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)

实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:

h1(e,f) = log p (e)

特征2:

h2(e,f) = log p (f|e)

并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。

Alignment Model and Maximum Approximation

另外,在翻译的过程中还有一个很重要的因子------对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。

Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。

Training (a参数的训练)

文中采用的是GIS 算法(Darroch and Ratcliff,1972)。

中文机器翻译沙龙第五次活动报名和第四次活动小结

Deep Learning Specialization on Coursera

时间:2011年3月27日(周日)下午14:00-17:00
报名截止日期:3月24日(周四)
地点:五道口清华科技园
费用:无
主讲人:1. 中国科学技术信息研究所宋培彦博士
                2. 国家知识产权局王进先生
题目: HNC相关理论和研究

报名请回复邮箱cmt.salon@gmail.com

中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第四次活动的小结:
本次沙龙活动在清华科技园的有道会议室举行。共有二十四人参加,包括来自有道、百度、腾讯、金山、高德、泰为、老虎宝典、同方知网等公司以及国知局、新华社等单位的人士,以及来自清华、北京语言大学、中科院计算所、北航、北师大等高校的研究生。

本次沙龙的主题是基于语料库的句法研究。大家对于目前应用最广泛的短语结构语法和依存语法进行了深入讨论。虽然目前分词技术相对成熟,但是句法分析是制约自然语言处理的瓶颈。而且分词中的错误可能会在后续处理中放大,来自中科院计算所的同学介绍了目前分词和句法分析以及翻译进行联合处理的技术。

而无论是短语结构语法还是依存语法,这些在英语句法分析中的方法,都很难说是适合汉语的句法分析的。相对于“形合”的英语、日语等语言来说,“意合”的汉语进行句法分析可能无法离开语义分析。大家举了“爱斯基摩的雪”、“英文的sister和中文的姐妹”,“今天星期三”,“这个很冠希”等具体例子,分析了词汇、概念、语义、隐喻等对句法分析的影响。

另外,虽然国外已经有相对成熟的语料库,如宾大。但国内这方面的研究仍然不足。目前的中文语料库建设仍存在很多问题。已有语料库除了不共享、不兼容外,多数是应用于科研和教学。而如何将语料库应用于中文翻译技术的相关研究仍然薄弱。

来自企业界的朋友对于自然语言在特定领域(如财经专利等)的应用提出了自己的想法,还讨论了关心的错别字问题,新词汇问题,问答系统等。

在讨论中,大家都认为目前中文句法分析仍然存在理论上的薄弱,因此建议下次沙龙活动以HNC为主题。另外大家对平行语料库的相关研究也比较感兴趣,可以在以后的沙龙中深入讨论。

中文机器翻译沙龙第四次活动报名和第三次活动小结

Deep Learning Specialization on Coursera

时间:2011年3月6日(周日)下午14:00-17:00
报名截止日期:3月3日(周四)
地点:有道会议室(五道口清华科技园)
费用:无
沙龙讨论题目:基于语料库的句法分析

报名请回复邮箱cmt.salon@gmail.com
本次沙龙活动属于自由讨论的性质,如果有希望做主题发言的,请告知。
为了使讨论更深入和有成效,可以告知您感兴趣的子议题。
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第三次活动的小结:
本次聚会如期在上岛咖啡举行。共有十三人参加,包括来自北京大学外国语学院翻译硕士教育中心的王华树老师,东方爱译老总张龙哺先生,以及其他来自公司和高校的对CAT感兴趣的朋友。

本次沙龙的主题是计算机辅助翻译(CAT)的应用现状和问题。大家对于CAT的核心技术问题以及市场问题进行深入讨论。王华树老师结合自己的从业实践和教学体验,针对翻译环境、翻译流程、翻译技术、翻译行业地位等方面同大家进行了探讨,希望大家看清翻译行业面临的根本问题,共同寻找解决的出路。张龙哺先生则介绍了自己长期从事CAT研发的心得体会,包括东方爱译的新一代人工智能翻译技术(TM++、MT+、以及混合翻译模式等),过去在国家专利局的相关科研经历,以及雅信的相关情况。张先生强调国产的软件其实在很多方面比国外的软件更好,更适合中国的应用。其他与会的朋友也各抒己见,就个人研发和使用计算机辅助翻译软件中的问题交换了意见。沙龙在六点左右结束。限于时间,很多问题的讨论还不够深入,王华树老师建议专门对于计算机辅助翻译的评测问题再展开专题研讨。

最后大家大致讨论了下期沙龙的可能的话题,如对句法分等。另外,王华树老师等提出了建立沙龙交流机制(如QQ群组、沙龙论坛和沙龙网站)和管理机制(成员管理),确保沙龙健康发展。

相关链接-王华树老师的博客:http://blog.sina.com.cn/s/blog_6d51f6da0100otmq.html

中文机器翻译沙龙第三次活动报名和第二次活动小结

Deep Learning Specialization on Coursera
时间:1月16日(周日)下午14:00-17:00
报名截止日期:1月13日(周四)

地点:海淀区某茶馆,具体地点视报名人数再定

费用:AA制
专题:计算机辅助翻译(CAT)的应用现状和问题
报名请回复邮箱cmt.salon@gmail.com
 
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/
以下是第二次活动的小结:
本次聚会如期在北师大举行。共有七人参加,其中包括两位新成员。参加上次沙龙活动的部分成员,因为临近期末考试等原因,未能前来,非常遗憾。感谢北师大的郭同学热情提供了场地、投影仪、电脑等设施,使本次沙龙活动得以顺利举行。 

本次沙龙的主题是机器翻译评测。基本上以2009年的机器翻译评测大纲和评测总结报告为题材,大家一起组织了共同的学习。在BLEU基础上进行改进的BLEU-SBP是主要的评测方法。另外微软的Woodpecker在汉英评测方向进行了应用,其评测结果与BLUE-SBP有很大的差异。报告认为Woodpecker的评测方法“更加可信”。 

大家也讨论了其他的评测技术,如NIST、GTM、mWER、mPER、ICT以及基于HNC的评测技术。通过本次沙龙活动,大家对目前主流评测技术的特点和不足有了更深的认识。沙龙成员建议将沙龙活动的材料上传到网上,限于条件目前还无法实现。 

另外,大家还讨论了诸如学业与就业的相关问题。最后确定了下次沙龙活动的主题是计算机辅助翻译,时间初步确定在2011年的1月16日。