打开SMT官网主页下的这个页面:http://www.statmt.org/matrix/,会发现一个漂亮的“欧洲矩阵(Euro Matrix)”,这是一个由11*11小方块组成的矩阵:在其对角线上,有欧洲11个国家的名字和国旗;而对角线之外的小方块里,则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值,而这幅图的背后,则是宏伟的EuroMatrix工程!
  EuroMatrix自2006年9月开始至2009年2月结束,为期30个月,由欧盟信息社会技术项目(EU Information Society Technology program)资助,其宏伟目标是实现所有欧洲语言间的统计和混合型机器翻译。
  EuroMatrix汇集了机器翻译领域国际公认的,高效率并有经验的研究小组及一些相关的工业界合作伙伴,包括英国爱丁堡大学(Edinburgh University,),捷克布拉格查尔斯大学(Charles University),德国萨尔兰大学(Saarland University),意大利语言和通讯技术评测中心(CELCT)及两个中小型企业:MorphoLogic和GROUP Technologies AG。
 EuroMatrix的具体目标如下:
  1、实现针对所有欧盟语言的机器翻译系统,特别关注新加入和近期将要加入的会员国语言(Translation systems for all pairs of EU languages, with a special focus on the languages of new and near-term prospective member states);
  2、在统计机器翻译中有效的融入语言学知识(Efficient inclusion of linguistic knowledge into statistical machine translation);
  3、规则和统计方法相结合的混合型机器翻译架构的开发和测试(The development and testing of hybrid architectures for the integration of rule-based and statistical approaches);
  4、组织,分析和诠释一个有竞争力的关注于欧洲经济和社会需求的机器翻译年度评测(Organization, analysis and interpretation of a competitive annual international evaluation of machine translation with a strong focus on European economic and social needs);
  5、提供开源机器翻译技术,包括研究工具,软件和数据(The provision of open source machine translation technology including research tools, software and data);
  6、对于建立在系统翻译基础之上的欧盟语言对间的最新机器翻译技术,机器翻译评测方法,用于MT的合适的工具、组件及数据等的系统编制和详细调查的持续更新(A systematically compiled and constantly updated detailed survey of the state of MT technology for all EU language pairs based on the developed systematic translation between all EU languages, the comparative MT evaluations and an inventory of available and needed tools, components, lingware and data)。
 目前与EuroMatrix相关的工具和资源包括:
  1、 Moses——著名的开源统计机器翻译系统;
  2、 Europarl Corpus——欧洲议会平行语料库,版本3,包括欧盟11个国家的官方语言间的平行语料库;
  3、 WMT 2007 Human Judgment Data——针对2007ACL SMT 研讨会参赛系统输出结果的句子级的人工专家评判数据;
  4、 CzEng Corpus——捷克-英语平行语料库,版本0.7。
  值得指出的是,以上这些资源和工具都是完全开放的,这对于MT尤其是SMT社区贡献是巨大的!现在很多研究工作都建立在这些工具和资源的基础之上,对于机器翻译的发展起到了很好的推动作用!
  不知道什么时候我们也能搞一个“ChinaMatrix”或者“AsiaMatrix”!

 EuroMatrix的主页见:http://www.euromatrix.net/

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
https://www.52nlp.cn/euromatrix-and-spirit-of-openness/

作者 52nlp

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注