统计机器翻译英雄谱一：Franz Josef Och

作者52nlp

5 月 1, 2009 #Franz Josef Och, #Kevin Knight, #Kohen, #NIST, #och, #Philipp Koehn, #SMT, #刘洋, #统计机器翻译, #计算所

　　一直想写一下统计机器翻译领域的英雄谱，不过这方面自己把握的还不足。前些天计算所刘洋师兄在这里留言，可能有的读者没有注意到，他细数了几位SMT牛人的贡献，写得很好：
　　“在统计机器翻译领域，Peter F. Brown是开山之祖，他的贡献自不必说。Franz J. Och是其后的巨人。Och的主要贡献是：(1) 把判别模型引入机器翻译，从根本上取代noisy-channel模型而成为目前的标准模型框架。(2) 简化了基于短语的模型。注意，他不是提出者，CMU的Yeyi Wang在97年就提出类似于IBM模型的短语模型，同样基于EM算法。由于复杂度过高，Och引入了相对频度，这是Och的一个大贡献，极大降低了参数估计的复杂度。(3) 开发并发布GIZA++。Och在这方面的学术贡献很少，只是重新实现Brown的工作，但是实际价值极大。Kevin Knight是机器翻译界公认的领袖人物，不过他的主要贡献是领导并培养了一批知名学者，如Philipp Koehn就是他的学生，他以第一作者发表的文章并不多。David Chiang是非常重要的一位学者，他的贡献是把机器翻译从平面结构建模引向层次结构建模。相对于以上几位，Philipp Koehn在学术上的贡献相对小得多（至少没有发表过Computational Linguistics论文），主要是词汇化权重、grow-diag-final和factored model，但这些都称不上重要贡献。Koehn最突出的是推广能力，先是Pharaoh，然后是Moses，Koehn使得大家更容易接触到真实的统计机器翻译系统。”　　
　　统计机器翻译成长的这二十年来，最具传奇色彩的人物当首推Franz Josef Och了，网上也散落着他统计机器翻译第一人的一些片段。查了一下，关于Och的介绍，写得最详细的应出自计算所黄瑾师姐写的一篇文章：《机器翻译评测介绍》，里面有一部分内容完整的介绍了Franz Josef Och的传奇故事。所以这第一篇英雄谱就转载她的文章内容了，希望能引起大家对统计机器翻译的兴趣：

　　从2002年起，在美国国防部高等研究计划局(DARPA)5资助的项目TIDES6的框架下，美国国家标准和技术研究所出面组织了NIST机器翻译评测。NIST评测每年举办一次，主要考察的语言对是汉语到英语以及阿拉伯语到英语，并且只对各参评系统的机器翻译结果的质量进行评测，对系统本身的其他方面不做评价。
　　在NIST评测中有一个颇具传奇色彩的人物，就是毕业于德国亚琛工业大学的博士生弗朗茨.约瑟夫.欧赫（Franz Joseph Och）。在1999年约翰霍普金斯大学夏季研讨班（JHU Summer Workshop 1999）上，他开发出了著名的IBM模型训练工具Giza。在2002年NIST评测中，取得第一名的亚琛工业大学的机器翻译系统就是由他开发的。欧赫 2002年从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作，同时作为Language Weaver公司的顾问，后来于2004年加盟了谷歌（Google）公司。他所到的每一个地方都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中，他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值，比第二名的南加州大学(即他原来所在的单位)的系统的性能提高了近5个百分点。2005年在汉语到英语方向取得前四名的单位分别是谷歌公司、美国南加州大学信息科学研究所(ISI/USC)、马里兰大学(UMD)和德国亚琛工业大学(RWTH)；2006年汉英翻译的这个排名变成美国南加州大学信息科学研究所（ISI/USC）、谷歌公司、美国Language Weaver公司（LW）和德国亚琛工业大学。其中2006年的这四个研究单位的技术都有一定的渊源关系，全部都是欧赫曾经或者正在工作的地方。在2006年评测中，除了汉英机器翻译的受限语料项目，其他所有项目的第一名都是谷歌公司。欧赫不仅仅是在评测中成绩绝对领先，而且在研究方面也是非常出色的。他这些年来发表的很多论文，包括博士论文，都成了统计机器翻译研究领域的经典，被人广泛引用和验证。更难得的是，他对自己的研究工作持一种非常开放的态度，一点都不保守。目前统计机器翻译研究领域一些著名的开源软件，如IBM模型训练工具Giza++、最大熵模型训练工具YASMET都是他开发的。这一切显示了欧赫不愧为统计机器翻译研究的第一人。
　　欧赫是统计方法的忠实信徒。伟大的希腊科学家阿基米德（Archimedes）说过：“只要给我一个支点，我就可以移动地球。”（“Give me a place to stand on, and I will move the world.”）。欧赫模仿阿基米德的口吻说：“只要给我充分的并行语言数据，那么，对于任何的两种语言，我就可以在几小时之内构造出一个机器翻译系统。”（原话是“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”。）在欧赫的研究中，数据规模总是第一位的。他也尝试过使用一些句法知识，但他的最后结论是，句法知识对统计机器翻译毫无用处，甚至有反作用。因此，欧赫总是试图用最简单的模型和最大量的数据取胜。到谷歌公司以后，谷歌公司对海量数据的驾驭能力使得欧赫如鱼得水。他把谷歌公司在Internet上采集的所有英语文档都用来训练英语的语言模型，动用了谷歌公司数千个CPU组成的计算机集群进行计算。如此巨大的语言模型，使得他所代表的谷歌公司在NIST评测中取得了其他单位难以撼动的优势地位。他这样做，也是利用了NIST评测规则中的一个不太合理的规定。在NIST评测中，有两类项目：受限语料项目和不受限语料项目。在受限语料项目中，参评者只能使用评测组织者提供的训练语料进行训练。而在不受限语料项目中，参评者可以使用任何语料进行训练。研究人员一般比较关注受限语料项目的评测，因为只有在语料受限的情况下，参评单位之间的结果才是可比的。大家比的是算法的好坏，而不是数据的规模和质量。但NIST评测规则不太合理的地方在于，对于受限语料项目，NIST评测只限定了用于训练翻译模型的双语语料必须受限，但对于训练语言模型的单语语料却没有任何限制。这使得谷歌通过这种方式训练出来的语言模型也可以参加NIST的受限语料项目评测。但他这种做法也遭到了越来越多研究人员的质疑，也许作为谷歌公司的企业行为，这样做是无可非议的，但作为研究人员来说，他这么做对其他研究人员来说，无疑是不公平的。另外，欧赫到谷歌以后，虽然系统做得非常强大，但他现在已经很少发表论文，通常只是在大会上做一些特邀报告。这样做的原因可能是因为谷歌公司要保守商业秘密吧。但这无疑也是让人觉得非常遗憾的。好在统计机器翻译领域现在人才辈出，出现了很多新的重量级人物，大家并不会因此感到寂寞。

注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och

作者 52nlp

AINLP 人工智能机器翻译翻译模型自然语言处理

《统计机器翻译英雄谱一：Franz Josef Och》有7条评论

error.d说道：

2009年05月27号 10:17

parallel data 翻译成并行数据.不太通顺吧.是对其语料吧?

[回复]
admin 回复:
27 5 月, 2009 at 10:44
这个并行数据应该是包括平行语料在内的语言数据，还可以包括双语词典、翻译文本之类的双语翻译资源。

[回复]
Lotus说道：

2009年06月6号 20:27

在一較狹義的領域中，例如：網路商業型翻譯。
可以建立一種《作者及讀者》雙方互補型翻譯架構；
作者：設計一軟件提供特定撰寫環境，由作者這方負責釐
清岐意中唯一的字意，文法上的排序，特殊名詞的加
註；將整篇文章轉成【中間語文】！
讀者：設計一軟件提供給讀者來翻譯，這軟件其實是去翻
譯【中間語文】；如此每個網客只要備有一種自己語
文版本之翻譯器就可以去各種語文之網站。
Lotus abfunkingdom@yahoo.com 2009/06/06

[回复]
121　121　12121说道：

2009年11月26号 10:29

　　站长崇拜的不是先知，而是寂寞！^_^

[回复]
52nlp 回复:
26 11 月, 2009 at 20:18
有点不得其解，呵呵！

[回复]
raogaoqi说道：

2010年04月9号 19:38

以前大学里有RWTH的交流项目，虽然和MT无关，见到的老师也和Och无关~还是深感与有荣焉啊！

[回复]
52nlp 回复:
9 4 月, 2010 at 20:06
呵呵，因为Och，我也对亚琛工业大学神往之！

[回复]

统计机器翻译英雄谱一：Franz Josef Och

作者52nlp

作者 52nlp

相关文章

文言文白话文互转：文言文转白话文（现代文），白话文（现代文）转文言文

哥伦比亚大学经典自然语言处理公开课，数学之美中盛赞的柯林斯（Michael Collins）教授授课

中文自然语言处理相关的开放任务，数据集, 以及当前最佳结果

《统计机器翻译英雄谱一：Franz Josef Och》有7条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《统计机器翻译英雄谱一：Franz Josef Och》有7条评论

发表回复

You missed