第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2

　　继续转载《中文信息学报》09年第6期中科院计算所米海涛,赵红梅,刘群老师的《第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介》，这一部分主要介绍的是NIST2009机器翻译评测研讨会。

　　第十二届机器翻译峰会和NIST2009 机器翻译评测研讨会简介
　　　　　　　　　　　作者：米海涛,赵红梅,刘群

NIST2009机器翻译评测研讨会:
　　NIST机器翻译评测是国际上最权威的机器翻译评测,它于2002 年由美国TIDES 项目资助设立,大致每年举行一次。NIST 评测为机器翻译相关研究提供了公共的测试基准,为研究机构提供了公平竞争的舞台与充分交流的机会,极大地推动了机器翻译相关技术的发展。
　　与MT Summit 不同,NIST 机器翻译评测研讨会由于讨论内容与NIST 评测密切相关,因此讨论的问题非常具体和集中,参加会议的人关心的问题和讨论的话题也比较一致,深入具体的技术交流让参会者感觉收获颇丰。
　　在今年NIST机器翻译评测中, 总共吸引了36 家单位,41 支队伍(其中包括多家机构的联合) ,主要设置了汉语到英语(Chinese-to-English) 、阿拉伯语到英语(Arabic-to-English) 和乌尔都语到英语(Urdu-to-English ) 三个语言对、训练语料受限(Const rained) 与不受限(Unconst rained) 两种条件的项目评测。今年的参赛单位包括BBN Technologies、USC/ ISI、LW、RWTH、IBM、SRI 等著名研究机构或大学,稍显遗憾的是Google 与Microsof t 两大巨头没有参加本次角逐。在参赛队伍中,来自中国大陆的共有7 家单位,分别是: 中国科学院计算技术研究所(CAS2ICT) 、中国科学院自动化研究所(CAS2IA ) 、富士通研究开发中心有限公司(FRDC) 、哈尔滨工业大学( HIT) 、北京航空航天大学(BUAA) 、南京大学(NJ U) 和中国电子信息产业发展研究院(CCID) ,这也是国内研究机构参加此项评测单位最多的一次。
　　自从2008 年开始,NIST 在每个翻译语言对上开始区分Current Test 与Progress Test 。Current Test 每次评测前都会制作一份测试数据,评测后会公布参考答案以供参赛单位对自己的系统进行分析;而Progress Test 只做一次测试数据,这份数据每年都要使用,并且要求参赛单位不得查看、分析该数据的测试集,每年评测结束后也不公布参考答案。设置此项测试的目的在于: 通过每年翻译同一个测试集,可以方便参赛单位进行纵向对比,更好地了解机器翻译性能是否提高以及考察提高或下降的原因。
　　另外,今年NIST 评测的一个新特点是区分了单系统与系统融合,相应地加入了单系统评测与系统融合评测。而系统融合项目又进一步分为正式系统融合( Formal System Combination) 与非正式系统融合( Informal System Combination) ,其中,正式系统融合任务以参赛队自己的单系统翻译结果作为输入,而非正式系统融合任务以所有参赛系统中自愿提供的单系统翻译结果作为输入。
　　...
　　此次汉英(C2E) 翻译只有Progress Test 项目,没有Current Test 项目。汉英单系统评测的桂冠被USC-ISI/LW联合队以BLEU 值0. 3225 的成绩摘得,第二名是BBN 公司,成绩为BLEU值0.3153。富士通研究开发中心有限公司与中国科学院计算技术研究所分列第6和第7名。另外,在显著性测试中,分列第3到第7的5家单位的新闻(Newswire) 部分差异并不显著,可以认为是第二集团,与第一集团的差距还是很明显的。从翻译模型上看,基于句法的系统已经完全超越了基于短语的系统,USC/ISI的串到短语树、BBN 的串到依存树系统高高占据了前两位,超越了RWTH 与NRC 的基于短语的系统。
　　在汉英Progress Test 的正式系统融合评测中,USC/ISI-LW 的系统融合结果相对于他们排名第一的单系统取得了0.8个BLEU 值的提升,成绩为BLEU值0. 3303 ,在参加正式系统融合评测的5个单位中继续排名第一。而计算技术研究所的系统融合结果相对于其单系统提升了近2.9个BLEU值,成为所有参赛队伍中通过系统融合技术提升幅度最大的一家,在参加正式系统融合项目的5 个单位中排名第二,计算技术研究所也因此应邀在NIST研讨会上做关于系统融合的正式报告。米海涛博士代表计算技术研究所在报告中详细介绍了在评测中所采用的技术,这也是NIST 首次邀请中国大陆的研究单位在研讨会上作正式报告。
　　汉英Progress Test 总成绩的排名中,计算技术研究所取得了第三名的好成绩,这是历年来国内研究机构在该项评测中所取得的最好成绩。
　　阿拉伯语到英语(A2E) 翻译Current Test 中, 剑桥大学以总成绩BLEU 值0.4834 获得A2E 第一;乌尔都语到英语( U2E) 的Current Test 中, USC-ISI/ LW 又以总成绩BLEU 值0. 312 0 获得U2E 的冠军。
　　从上述测试的BL EU 值绝对分数可以看出,目前汉语到英语机器翻译的水平要比阿拉伯语到英语低得多,这反映汉英翻译确实难度更大,也更值得我们进行深入的研究。乌尔都语到英语评测由于训练语料库规模较小,其结果不具备可比性。
　　NIST2009 机器翻译评测研讨会为期两天。第一天,首先由NIST 机器翻译评测组织方对评测概况、研讨会安排进行了介绍。其中有一个环节是:所有参评单位各用30 秒钟时间非常简单地讲一下本单位在评测中效果最好的技术和没有效果的技术,密集的报告让大家印象非常深刻。随后便开始进行单系统报告, 报告单位包括CUED、LIUM/SYSTRAN、App Tek 、UMD、BBN、SYSTRAN 等。下午1 点到3 点还安排了张贴报告,共有11 家单位对自己的NIST 评测系统做作了张贴报告,这些单位包括: AFRL ,CAS-ICT ,CMU-StatXfer ,Columbia ,DCU , DFKI , FB K, FRDC , RWTH , TelAviv, UMD。张贴报告的形式给了大家充分交流的机会,报告与茶歇同时举行使得讨论的气氛更加融洽。
　　研讨会的第二天主要进行了系统融合的报告,报告单位包括IBM、CAS-ICT、ISI/LW、CMU 、BBN、SRI、RWTH 和J HU 等。会议的最后一项是对明年NIST 机器翻译评测计划的讨论,由全体与会人员参加, 分别针对明年的翻译语言对(Language pairs) 、数据(Data) 、任务( Tasks) 、可预测评价( Predictive evaluation) 、人工评测( Human assessments) 以及系统融合评测项目的N-best 提交格式(N-best list s for system combination) 等问题展开了激烈的讨论。大家各抒己见、踊跃发表自己的意见与看法,尽管在有些观点上不能达成一致,但
相信这些意见与看法一定会对下一年NIST 机器翻译评测的成功举行起着巨大的借鉴意义。NIST 主办方最后还宣布了明年NIST 机器翻译评测的大致时间,初步定于2010 年10 月份左右,而随后的研讨会初定于2011 年1 月份左右。
　　有关NIST2009 机器翻译评测的详情见:
　　http://www.itl.nist.gov/iad/mig//tests/mt/2009/

注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/第十二届机器翻译峰会和nist2009机器翻译评测简介2

第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2

作者52nlp

作者 52nlp

相关文章

文言文白话文互转：文言文转白话文（现代文），白话文（现代文）转文言文

哥伦比亚大学经典自然语言处理公开课，数学之美中盛赞的柯林斯（Michael Collins）教授授课

中文自然语言处理相关的开放任务，数据集, 以及当前最佳结果

《第十二届机器翻译峰会和NIST2009机器翻译评测研讨会简介2》有2条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界