MIT人工智能实验室的《如何做研究》建议阅读本领域中最本质的几篇论文:“如果你对AI的某个子领域感兴趣,向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。阅读经典论文,对于了解感兴趣的领域非常重要。而关于统计机器翻译,最经典的几篇论文又是什么呢?以下是我根据自己的经验总结的几篇经典论文,如有遗漏,欢迎补充。

1.A Statistical Approach to Machine Translation
  简称Brown90,这是统计机器翻译的奠基之作,是了解统计机器翻译基本思想的必读,文章中最主要的思想是把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。另外文章主要是对统计机器翻译三部分(翻译模型、语言模型及解码)的宏观介绍,涉及的数学理论并没有过多的详细解释,因此读来比较轻松。

2. The Mathematics of Machine Translation: Parameter Estimation
  简称Brown93,主要针对Brown90中翻译模型的参数估计进行了详细的数学解释,需要一定的数学基础和耐心,不过Kevin Knight 99年JHU(约翰霍普金斯大学)夏季机器翻译研讨班上的《A Statistical MT Tutorial Workbook》对Brown93用例子及通俗的方式进行了讲解,读来比较容易理解,值得对照阅读。

3. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation
  这是统计机器翻译领域中传奇人物Franz Josef Och 在2002年ACL会议上发表的论文,他提出了基于最大熵模型的统计机器翻译方法,是对Brown信源信道模型的极大扩展,开阔了统计机器翻译的视野,并为研究者提供了一个融合其它知识到统计机器翻译中的研究框架,这篇论文获得了当年的ACL最佳论文奖。

4. Statistical Phrase-Based Translation
  这是统计机器翻译领域另一个大牛Philipp Koehn 2003年与Och合著的文章,已涉及了具体的方法而不是理论框架:基于短语的统计机器翻译。之所以选在这里,与Koehn 2004年发布的具有广泛影响力的解码器Pharaoh不无关系,Pharoah现在已被Koehn领导的另一个开源项目Moses所取代。

5. BLEU: A Method for Automatic Evaluation of Machine Translation
  这是目前用得最广的机器翻译自动评测方法BLEU的原始论文,之所以选在这里,因为评测方法的好坏对于机器翻译的研究具有很大的影响,BLEU理应作为评测方法的代表入选。

  统计机器翻译中其实还有好多经典文献,恕本人学识有限,这里只将自己能力范围之内的重要文章放在这里,欢迎大家探讨和补充!这些文章都可以在Google中搜到,所以这里就不附下载连接了。

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
https://www.52nlp.cn/statistical-machine-translation-classic-literature/

作者 52nlp

《统计机器翻译中的几篇经典文献》有4条评论
  1. 可以补充一个:Hierarchical Phrase-Based Translation (Chiang, 2007).

    这也是一篇SMT史上有划时代意义的论文。作者在之前基于短语的模型(Philipp et al., 2003)的基础上构建了一个基于句法的模型,同时也编了一个新的解码器Hiero(作者是用Python实现的,目前并没开源,开源的版本是用Java实现的,叫Joshua。它们的工作原理是一样的)。新系统在翻译性能上较前者又有了很大的提高。

    [回复]

    admin 回复:

    Thanks a lot!

    [回复]

  2. David Chiang的Hierarchical Phrase-Based Translation能用中文翻译下么?

    [回复]

    52nlp 回复:

    很多翻译为“基于层次短语的翻译模型”,可以google一下

    [回复]

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注