标签归档:机器翻译

斯坦福大学深度学习与自然语言处理第一讲:引言

斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊 Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris ManningDeep Learning 领域的巨牛 Andrew Ng,其博士论文是《Recursive Deep Learning for Natural Language Processing and Computer Vision》,也算是多年求学生涯的完美一击。毕业后以联合创始人及CTO的身份创办了MetaMind,作为AI领域的新星创业公司,MetaMind创办之初就拿了800万美元的风投,值得关注。

回到这们课程CS224d,其实可以翻译为“面向自然语言处理的深度学习(Deep Learning for Natural Language Processing)”,这门课程是面向斯坦福学生的校内课程,不过课程的相关材料都放到了网上,包括课程视频,课件,相关知识,预备知识,作业等等,相当齐备。课程大纲相当有章法和深度,从基础讲起,再讲到深度学习在NLP领域的具体应用,包括命名实体识别,机器翻译,句法分析器,情感分析等。Richard Socher此前在ACL 2012和NAACL 2013 做过一个Tutorial,Deep Learning for NLP (without Magic),感兴趣的同学可以先参考一下: Deep Learning for NLP (without Magic) - ACL 2012 Tutorial - 相关视频及课件 。另外,由于这门课程的视频放在Youtube上,@爱可可-爱生活 老师维护了一个网盘链接:http://pan.baidu.com/s/1pJyrXaF ,同步更新相关资料,可以关注。
继续阅读

“翻译技术沙龙”第十四次活动详情与小结

主题为“开源翻译技术”的翻译技术沙龙第14期活动于2012年10月14日14:00-17:30在中科院计算所501会议室举行。共有40位翻译技术研发者、翻译行业从业者和自然语言处理技术爱好者参加了本次活动。其中,高校科研院所的参与者来自:北京语言大学、北京大学、苏州大学、中科院自动化所、中科院软件所、北京师范大学、东北大学、中科院计算所(东道主)等;企业方面的参与者来自:明博智创、知识产权出版社、优酷网、微软、去哪儿网、莱博智、金山软件、网易有道、太科石油信息咨询、百度、橙译中科、语智云帆等。

在参会嘉宾分别进行简短介绍之后,沙龙进入特邀嘉宾发言阶段。本期特邀演讲嘉宾有:中科院计算所骆卫华老师:介绍计算所机器翻译研发;百度何中军博士:介绍百度机器翻译研发;东北大学肖桐老师:介绍东北大学NiuTrans开源机器翻译系统;北京大学俞敬松教授:介绍开源翻译技术与翻译教学;语智云帆胡日勒博士:其他开源翻译工具简介。

计算所骆老师首先做了题为《面向应用的机器翻译》的报告,介绍了机器翻译的基本原理和计算所(及橙译中科公司)机器翻译的主要研究方向。除了深入基于句法的翻译模型研究之外,计算所积极探索机器翻译的实用应用方向,主要有:新闻、专利、科技文献、外事文书、口语、名片、菜谱等,并在小语种翻译(韩、泰、维、藏、蒙、日等)方面具备一定的积累;产品方面,目前提供的有:
开放API、双语句子自动对齐、编辑后处理、云翻译资源库;骆老师还总结了机器翻译应用中的关键问题: 双语语料、未登录词、特殊语言现象、语言非典型用法、译后编辑与翻译模型的融合、翻译模型的压缩与优化、分布式并行运算平台等。

第二位发言的是百度机器翻译组的何中军博士。何博士介绍了百度在线翻译、百度英文论文写作助手、机器翻译API等产品。与会者对百度机器翻译研发非常感兴趣,就语料规模、响应性能、多引擎融合、评测、与谷歌翻译对比等问题与何博士进行了热烈的讨论。对于开源机器翻译系统,何博士的观点有二:一是开源系统虽然能够加快开发,但往往带来“不求甚解”,反而不利于学习者和研究人员深入理解,希望利用开源系统的学生和开发者要深入源码;二是开源系统给互联网带来了大量的语料噪音,给基于互联网的后续研发带来了很大的麻烦,希望从业人员要对产出的内容负起责任。

第三位发言的嘉宾是东北大学的肖桐老师。肖老师首先介绍了东北大学NLP组的历史和团队现状,然后具体介绍NiuTrans开源机器翻译系统的细节。NiuTrans开源至今已有550研究机构和个人下载使用,它是为数不多的支持绝大多数主流SMT模型的系统。在NiuTrans开发过程中,开发团队成员付出了非常大的努力——要做的不止是开发,还有技术支持,手册撰写,WEB维护等一系列繁琐的事务。小老师的开源观点:开源机器翻译系统主要用于学习和研究,也可以用于实际系统开发,但“裸奔”绝对不行。即系统搭建只是起步,调优才是关键!深入理解机器翻译系统必不可少。随后肖老师回答了大家很多关于NiuTrans的细节问题,自动化所陈振标老师给NiuTrans提出了不少实用的改进建议。

之后发言的嘉宾是北京大学语言信息工程系俞敬松教授。俞老师首先介绍了北京大学语言信息工程系的基本情况,包括计算机辅助翻译、文本翻译与技术写作、互联网数据挖掘(即原来的自然语言处理)三个专业方向。对于在与教学相关的开源技术应用,俞老师要求学生(尤其是NLP方向的)一要“求甚解”,不单要会用,还要深入理解,而且不能满足于算法和论文,要有动手编程实现的能力;二要“做贡献”,发现错误要能主动去fix。对于开源翻译工具,俞老师提出:1)可以更多关注一些BS结构的系统;2)格式问题是翻译工具应用的一大障碍,需要下大力气去解决;3)机器翻译应该多研究译员的行为,让人的思维可以对机器翻译产生干预。俞老师认为,机器翻译开发者应该注重MT的实际意义,面向译员的MT应该重视译员的最核心的需求。目前常见的情况是MT开发人员多数不了解译员在做什么。

最后一位发言的嘉宾是来自语智云帆的胡日勒博士。胡博士为大家总结了十四款开源翻译软件(事先在 @中文翻译技术沙龙 微博上已发布),从开源软件的不同协议对应的不同权利和责任说起,对各软件逐一进行了简要介绍。所涉及的软件除了前面讨论较多的机器翻译系统(moses, NiuTrans)之外,更多的是翻译记忆类的CAT工具(如OmegaT)、翻译记忆服务器TM Server(如OpenTM2 | TinyTM)、翻译管理系统 TMS(如GlobalSight)、机器翻译支撑环境(如m4loc)、本地化格式处理工具(如POedit)、翻译支持组件集合(如Okapi Framework Tools)等。其实机器翻译只是翻译技术的一个方面,在实际翻译生产中,各种各类的技术和工具发挥着重要的作用。大家应该多关心实际生产中的需求。

中间休息之后,活动转入互动环节。语智云帆魏勇鹏总经理主持互动环节,首先邀请太科石油、知识产权局、莱博智等公司代表从客户方和服务方角度谈如何看待机器翻译和辅助翻译技术。
太科石油吕经理的观点如下:
1)翻译公司有大量的语料,但是其整理是一个费时费力费钱的过程。2)绝大多数翻译公司都有一条“纪律”,就是不许用机器翻译!3)翻译只是翻译公司所做工作的其中一部分,工作流程中还有许多其他的环节和细节处理(如格式转换、排版、文件拆分、字数统计等),这些工作可能占据将近一半的时间;3)要让译员接受机器翻译,需要彻底了解机器翻译的原理,思维方式必须有翻天覆地的变化,不是短期内可以实现的。机器翻译发展的方向是什么,翻译公司该怎么去适应,这是太科参加翻译技术沙龙活动希望了解的内容。
知识产权局王先生:
在知识产权出版社从事信息抽取方面的工作,与机器翻译有相通之处。认为目前译员对机器翻译的期待远高于现有机器翻译系统能达到的水平。所以机器翻译还需要大幅度提高翻译质量。同样关心机器翻译发展的方向。
莱博智任先生:
介绍了莱博智机器翻译应用的情况。基本流程包括客户需求分析--原始文件获取--领域匹配--模型训练--自动翻译--交付或译后编辑等。

针对大家最为关心的机器翻译发展方向问题。骆老师、胡博士简要介绍了9月份在西安理工大学举办的第八届全国机器翻译研讨会(CWMT2012)的情况:会议议题涉及机器翻译理论方法、机器翻译应用、语音翻译、少数民族语言与机器翻译、机器翻译评测等;会议期间,百度、微软亚洲研究院、自动化研究所、东北大学、专利信息中心等单位展示了最新研究成果和机器翻译系统。CWMT会上,大家普遍认为新的、复杂的机器翻译模型离应用还比较远,如何将机器翻译与翻译流程相结合,并找到合适的商业模式,是当前机器翻译发展的重要任务。会上还探讨了基于语义的机器翻译发展方向。

嘉宾们还针对机器翻译的商业模式进行了讨论。语智云帆魏总提出,针对客户的需求进行引擎定制,是目前可行的一种模式,国外已有采用这种模式的商业案例。不过,出于语料数据的安全性和业务流程的可控性考虑,客户通常希望能够对翻译引擎有完全的控制力,但由于机器翻译系统的复杂性,以一般客户的技术能力又很难掌握。这就要求引擎提供商能够提供“点对点”、“手把手”的支持,售后服务的成本非常高。

中国译协本地化服务委员会秘书长崔启亮老师发表了对机器翻译的观点: 第一,机器翻译研究是热点,但研究与应用要适当分工,机器翻译要走出实验室,走向商业翻译应用。第二,机器翻译的应用领域应该多元化,例如信息情报检索不要求高的翻译译文质量。第三,仅靠机器翻译不能解决译文质量问题,还需要结合译前预处理,包括翻译记忆,术语,标签TAG保护,特殊规则,译后人工校对。崔老师呼吁作为程序员的MT开发者和作为用户的外语翻工作者(场外关注沙龙并进行实况转发的 @一本词典 认为这两类人“似乎活在两个不同的世界里”)应该互相关注,多多交流,了解实际翻译需求,希望机器翻译关注更多自身具有优势的领域,注意拓展多元化的商业模式。

太科石油吕经理进一步补充:目前市场上主流的辅助翻译产品都是国外开发的,很多方面并不适合国内翻译行业的需求。希望国内的机器翻译、辅助翻译开发者联合起来,合理分工及协作,为国内翻译行业打造更加适用的翻译工具。语智云帆魏总也倡议,希望对开源翻译技术有兴趣的研究者和开发者能一起进一步调研、分析、改进、整合各种开源翻译技术资源,将技术转化为真正的生产力。

最后,参加活动的部分嘉宾合影留念,本次沙龙活动圆满结束。

“翻译技术沙龙”第十三次活动详情与小结

本次活动在外研社大厦的第四会议室举行,共有近40人参加,其中包括来自北京大学、北京戏曲艺术学院、中科院、河北大学等大学的高校教师和研究员,来自北京大学、北京语言大学、中科院等高校的研究生、博士生,来自北京语智云帆、Transoo、上智瑞达等技术开发公司的代表,来自赛门铁克、太科石油等公司的企业代表,来自外研社的场地赞助方代表,还有其他众多语言服务行业的从业者和爱好者。

本次活动分为两个阶段:自由发言阶段和自由讨论阶段。

活动正式开始前,外研社的李鸿飞先生代表外研社向在座的与会人员致辞,欢迎大家到外研社参加此次活动。

自由发言阶段由北京语智云帆公司的总经理魏勇鹏主持,与会人员围绕典型译后编辑、机器翻译产品介绍及使用体验;译后编辑工作模式的效用分析;译后编辑工作模式的流程及注意事项;译后编辑所需的技术及工具支持;译后编辑所需的培训工作等五个议题进行自由发言。

典型译后编辑、机器翻译产品介绍及使用体验:

语智云帆公司的曲丽君女士为在场的与会人员分享了她使用谷歌译者工具包(GTT,Google Translator Toolkit)的使用体验,她提到GTT具有所见即所得的编辑器,除基本的编辑功能外,其对原文格式的保留较好,译员还可以在翻译过程中添加评论;GTT内嵌开放的评分系统,用户可以对译文进行打分;GTT可直接翻译维基百科等网站的网页;GTT支持上传和下载术语库、翻译记忆库;GTT具备多人协作和在线聊天功能。

随后,来自北京大学的杨德林同学补充了几点他对GTT的看法,他认为目前GTT支持的文件类型太少,文件大小有限制,无法导出双语对照文件等。

Transso公司的仝立铭先生和北京大学王华树老师就在线CAT工具如何进行服务器之间的共享,如何提高服务响应速度,CAT工具如何遵循统一的xliff标准发表了自己的观点。

译国译民公司的张琼心女士分享了他们在实际翻译工作中的工作流程,他们会首先对稿件进行译前处理,随后使用CAT工具进行翻译,翻译完成后进行译后编辑(她主要提到的是人工翻译后的译后编辑工作)。

Transoo公司的仝立铭先生随后介绍了他们正在开发的CAT工具的相关情况。

译后编辑工作模式的效用分析:

某著名跨国IT企业代表介绍了其使用Systran等系统进行机器翻译的经验,她提出在实际工作中,公司会为下级服务提供商给出机器翻译的结果,服务提供商会在机器翻译的基础上进行译后编辑。

随后,太科石油的吕经理提出了他们对CAT工具的基本需求,并指出他们目前遇到的最大问题是如何提高校对效率和质量的问题。

来自河北大学的张成智老师讲述了他使用谷歌翻译的感受,他认为谷歌翻译的结果会给他提供一些翻译的思路,帮助他组织语言,谷歌翻译会提示许多词汇的翻译结果,谷歌翻译能够节省翻译的时间。北京大学的杨德林同学补充道,谷歌翻译质量的高低同文件类型领域密切相关。

语智云帆公司的魏勇鹏介绍了一款名为PET的工具,该工具可用于对不同的机器翻译结果进行评测,功能包括记录译后编辑时间、键盘敲击记录、定制评分等。

译后编辑工作模式的流程及注意事项:

语智云帆公司的韩林涛介绍了一篇来自TAUS的文章:“MACHINE TRANSLATION POSTEDITING GUIDELINES”,该指南主要是帮助客户和服务提供商设定清晰的使用译后编辑器的期望。

来自中科院计算所的骆卫华先生和魏勇鹏补充了他们认为的译后编辑的基本要求。

译后编辑所需的技术及工具支持:

骆卫华先生介绍了客户对机器翻译结果的看法,他指出许多客户只是想利用机器翻译,而并不关心机器翻译如何工作;客户对机器翻译有不少负面评价,比如译文不可用,修改译文耗费时间等;他提出对机器翻译的需求需要进行仔细鉴定;最后他介绍了目前机器翻译的两种基本方法,基于规则的方法和基于统计的方法。

来自中科院的博士生刘汇丹补充了基于规则的机器翻译方法的相关问题,提出可以进行多引擎结合导出最佳译文。

魏勇鹏随后介绍他正在从事的技术开发工作,他首先讲解了领域语料库的加工方法,提出目前亟需建立专业知识库,建立实体之间的关系,确定相关标准;他提出需要将用户行为与机器翻译结果结合起来。

Transoo公司的唐义会先生提出了机器翻译后的内容再次被翻译的问题。

译后编辑所需的培训工作:

来自北京大学的高志军老师首先介绍北京大学语言信息工程系目前正在进行的相关培训工作,随后指出了统计方法和规则方法之中遇到的问题。

来自北京大学的王华树老师随后介绍了译后编辑的范畴问题,如什么是译后编辑,广义的和狭义的译后编辑分别是什么;他还介绍了译前译中译后编辑环境相关问题,如翻译编辑器的界面如何设计、界面的灵活性如何处理、术语和记忆库的选择问题、第三方资源的利用问题、如何更好得提高翻译效率等。

自由讨论阶段由北京大学的王华树老师主持。

中科院软件所的代表向与会人员介绍了他们正在研发的汉藏计算机辅助翻译系统。该系统主要结合政府相关的语料,具备基本的翻译编辑功能,支持句段的合并和拆分、术语添加、译文修改等,拥有定制化的输入法和词典。

随后,王华树老师通过一组精彩的幻灯片向与会人员介绍了目前主流的计算机辅助翻译工具的界面和特色。同时,他还根据自己的经验分析了未来一段时间计算机辅助翻译工具的发展趋势,如去格式化、可视化、语境化、网络协作式、开源、语音翻译、机器翻译和翻译记忆整合、工具多功能整合,以及云翻译等。

自由讨论阶段以及中途休息时间,与会的人员还根据今天讨论的话题和自身的工作经验进行了非常热烈的讨论。

最后,参与本次活动的部分人员在外研社大厦门前合影留念,本次活动正式结束。

请大家在新浪微博上多多关注@中文翻译技术沙龙、@一本词典。

支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布

以下是来自东北大学自然语言处理实验室朱靖波老师发给CWMT群的邮件:支持五个SMT模型的NiuTrans 完整版 ver1.0.0 测试版正式发布。感谢东北大学对于机器翻译开源事业的贡献!

各位同行朋友们,大家好!

经过一年的努力,今天NiuTrans ver1.0.0 测试版终于正式发布。在上个版本的基础上,新增了三个句法模型: tree-to-string, string-to-tree and tree-to-tree. 这样目前完整版已经支持了SMT目前主流的五个模型,供同行们SMT研究之用。同时也发布了新的较完整的NiuTrans英文版Manual,供大家使用NiuTrans时参考使用。

访问入口显示在东北大学自然语言处理实验室网站(http://www.nlplab.com)首页左上角。另外同时我们开通了NiuTrans新浪微博(http://weibo.com/niutrans),将实时报道NiuTrans的研发进展情况,也便于大家与我们NiuTrans研发团队的互动交流。

NiuTrans将在ACL2012进行演示,为此我们赶在ACL前夕和NiuTrans开源一周年之际发布标准版。但在研发期间我们发现句法模型的实现难度比较高,因此将目前版本称为测试版。希望大家顺便帮助测试一下,使用过程中如发现问题的话,即时告诉我们。最近我们将不断深入测试和改进NiuTrans句法模型,并将及时发布,希望大家注意关注。在此,我代表NiuTrans开发组非常感谢大家的关注,欢迎大家给我们提建议和批评指正,也可以直接e-mail to niutrans at mail.neu.edu.cn,NiuTrans研发团队会及时回答大家的问题。

祝大家身体健康,快乐开心。

Best regards,

Jingbo Zhu (朱靖波)
Natural Language Processing Laboratory
Northeastern University

中文翻译技术沙龙第十次活动报名

时间:2011年10月15日(周六)下午14:00-17:00
地点:五道口清华科技园
费用:无

题目1: 开源输入法SunPinyin解读
主讲人:NUANCE公司何楠

题目2: 第13届国际机器翻译峰会(13th MT Summit)和第7届全国机器翻译研讨会(CWMT2011)的分享会
主讲人:部分参会人员,具体名单待定

报名截止日期:10月13日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

ME for Machine Translation

利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。

Discriminative training and maximum entropy models for statistical macine translation

1. ME 模型是在噪声信道模型的基础上改进而来的。

2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。

3. 噪声信道模型存在的几个问题:

(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。

(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。

(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。

ME Translation Model

由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)

实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:

h1(e,f) = log p (e)

特征2:

h2(e,f) = log p (f|e)

并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。

Alignment Model and Maximum Approximation

另外,在翻译的过程中还有一个很重要的因子------对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。

Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。

Training (a参数的训练)

文中采用的是GIS 算法(Darroch and Ratcliff,1972)。

中文机器翻译沙龙第五次活动报名和第四次活动小结

时间:2011年3月27日(周日)下午14:00-17:00
报名截止日期:3月24日(周四)
地点:五道口清华科技园
费用:无
主讲人:1. 中国科学技术信息研究所宋培彦博士
                2. 国家知识产权局王进先生
题目: HNC相关理论和研究

报名请回复邮箱cmt.salon@gmail.com

中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第四次活动的小结:
本次沙龙活动在清华科技园的有道会议室举行。共有二十四人参加,包括来自有道、百度、腾讯、金山、高德、泰为、老虎宝典、同方知网等公司以及国知局、新华社等单位的人士,以及来自清华、北京语言大学、中科院计算所、北航、北师大等高校的研究生。

本次沙龙的主题是基于语料库的句法研究。大家对于目前应用最广泛的短语结构语法和依存语法进行了深入讨论。虽然目前分词技术相对成熟,但是句法分析是制约自然语言处理的瓶颈。而且分词中的错误可能会在后续处理中放大,来自中科院计算所的同学介绍了目前分词和句法分析以及翻译进行联合处理的技术。

而无论是短语结构语法还是依存语法,这些在英语句法分析中的方法,都很难说是适合汉语的句法分析的。相对于“形合”的英语、日语等语言来说,“意合”的汉语进行句法分析可能无法离开语义分析。大家举了“爱斯基摩的雪”、“英文的sister和中文的姐妹”,“今天星期三”,“这个很冠希”等具体例子,分析了词汇、概念、语义、隐喻等对句法分析的影响。

另外,虽然国外已经有相对成熟的语料库,如宾大。但国内这方面的研究仍然不足。目前的中文语料库建设仍存在很多问题。已有语料库除了不共享、不兼容外,多数是应用于科研和教学。而如何将语料库应用于中文翻译技术的相关研究仍然薄弱。

来自企业界的朋友对于自然语言在特定领域(如财经专利等)的应用提出了自己的想法,还讨论了关心的错别字问题,新词汇问题,问答系统等。

在讨论中,大家都认为目前中文句法分析仍然存在理论上的薄弱,因此建议下次沙龙活动以HNC为主题。另外大家对平行语料库的相关研究也比较感兴趣,可以在以后的沙龙中深入讨论。

中文机器翻译沙龙第四次活动报名和第三次活动小结

时间:2011年3月6日(周日)下午14:00-17:00
报名截止日期:3月3日(周四)
地点:有道会议室(五道口清华科技园)
费用:无
沙龙讨论题目:基于语料库的句法分析

报名请回复邮箱cmt.salon@gmail.com
本次沙龙活动属于自由讨论的性质,如果有希望做主题发言的,请告知。
为了使讨论更深入和有成效,可以告知您感兴趣的子议题。
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第三次活动的小结:
本次聚会如期在上岛咖啡举行。共有十三人参加,包括来自北京大学外国语学院翻译硕士教育中心的王华树老师,东方爱译老总张龙哺先生,以及其他来自公司和高校的对CAT感兴趣的朋友。

本次沙龙的主题是计算机辅助翻译(CAT)的应用现状和问题。大家对于CAT的核心技术问题以及市场问题进行深入讨论。王华树老师结合自己的从业实践和教学体验,针对翻译环境、翻译流程、翻译技术、翻译行业地位等方面同大家进行了探讨,希望大家看清翻译行业面临的根本问题,共同寻找解决的出路。张龙哺先生则介绍了自己长期从事CAT研发的心得体会,包括东方爱译的新一代人工智能翻译技术(TM++、MT+、以及混合翻译模式等),过去在国家专利局的相关科研经历,以及雅信的相关情况。张先生强调国产的软件其实在很多方面比国外的软件更好,更适合中国的应用。其他与会的朋友也各抒己见,就个人研发和使用计算机辅助翻译软件中的问题交换了意见。沙龙在六点左右结束。限于时间,很多问题的讨论还不够深入,王华树老师建议专门对于计算机辅助翻译的评测问题再展开专题研讨。

最后大家大致讨论了下期沙龙的可能的话题,如对句法分等。另外,王华树老师等提出了建立沙龙交流机制(如QQ群组、沙龙论坛和沙龙网站)和管理机制(成员管理),确保沙龙健康发展。

相关链接-王华树老师的博客:http://blog.sina.com.cn/s/blog_6d51f6da0100otmq.html

代友转发:发起成立中文机器翻译定期学术沙龙

  以下文字代友Alex转发,如果哪位读者有水木帐号,恳请转载到“水木自然语言处理版”,非常感谢!Alex从事的是技术翻译相关的工作,对机器翻译比较感兴趣,希望搞个北京地区线下交流的自然语言处理的学术沙龙,主要面向中文机器翻译,也欢迎NLP其他领域的朋友,以下文字系Alex所写:

中文机器翻译是自然语言处理的重要应用领域之一,其跨学科的特点非常显著,涉及了语言学、数学、计算机、认知科学等多种学科。

目前在北京和全国对相关研究感兴趣的人很多,相对分散。仅仅在北京,从事相关研究的北京高校和科研院所就有清华大学、北京大学、中科院各研究所、北京外国语大学、北京师范大学、北京邮电大学、中国传媒大学、北京交通大学等。

鉴于此,拟组织定期学术沙龙活动,在轻松的环境中相互交流学术问题,促进相关的学术研究。沙龙设想的初期参与者包括北京各高校、研究所的硕士博士生和科研人员,也欢迎公司企业界和京外相关人士参加。

有兴趣的请发邮件到cmt.salon@gmail.com与我联系。谢谢!

诗歌翻译与统计机器翻译

  Google Research Blog前几天出了一篇文章“Poetic Machine Translation”,介绍的是Google的机器翻译学者对于“诗歌”进行尝试性的机器翻译,效果比预想要好,相关的研究成果在今年的EMNLP 2010会议上的发表了一篇论文,这个会议这几天正在举行。 继续阅读