ME for Machine Translation

利用周末时间细读了Och和Ney在02年ACL上发表的一篇关于Machine Translation的文章,做个笔记。

Discriminative training and maximum entropy models for statistical macine translation

1. ME 模型是在噪声信道模型的基础上改进而来的。

2. Source-Channel Model 被称为“Fundamental Equation of Statistical MT”,即,机器翻译的基本方程式。

3. 噪声信道模型存在的几个问题:

(1)噪声信道模型中,当翻译模型和语言模型只有在语料上的实际值等于理论值的时候,翻译结果才能达到最优;如果有一种更好的能将LM和TM进行结合的方法,那么翻译效果会有很大的提升。

(2)噪声信道模型不能通过直接扩展可对MT产生帮助性作用的特征和信息来扩展统计MT 系统。

(3)噪声信道模型的翻译模型具有可对称性特点。p(f|e)与p(e|f)在模型中可产生相当的作用,都可以与语言模型一起在信道模型中产生作用。虽然在噪声信道理论框架中难以对这种现象进行分析解释,不过产生的翻译效果却极具有可比性。在实际的统计翻译中,可以通过比较其作用好坏,按需选择来使用。

ME Translation Model

由于噪声信道模型能够融入的信息较为有限,Och 等人提出了采用ME 来进行统计翻译的方法,这主要是由于ME 具有可将多种信息进行有效结合从而为翻译提供支撑的特点。ME 方法是对噪声信道模型的改进。在该理论中,可以将N个信息同时考虑在MT 的过程之中,每一个信息被视为一个特征(或者叫做特征函数function),每个特征对应一个参数a,翻译概率的计算就跟这些特征函数和参数有关。(详细计算公式见论文第3页)

实际上,噪声信道模型的MT方法是包含在ME 方法框架之内的,当特征1:

h1(e,f) = log p (e)

特征2:

h2(e,f) = log p (f|e)

并取参数a1=a2=1的时候,ME 表现出来的框架其实就是噪声信道。

Alignment Model and Maximum Approximation

另外,在翻译的过程中还有一个很重要的因子——对齐。不管是噪声信道还是ME,在翻译过程中都需要计算源语言到目标语言的对齐,这个贯彻翻译概率计算过程的始末。

Och等在当年的系统中采用的是Alignment Templates的方法。即,只有源语言短语、目标语言短语的短语表,i.e.,短语表。

Training (a参数的训练)

文中采用的是GIS 算法(Darroch and Ratcliff,1972)。

此条目发表在机器翻译, 翻译模型分类目录,贴了, , , , 标签。将固定链接加入收藏夹。

ME for Machine Translation》有 8 条评论

  1. 52nlp说:

    非常感谢在这里分享心得体会!

    [回复]

  2. emnlp说:

    有一点,我有点疑惑
    你在文中提到
    “1. ME 模型是在噪声信道模型的基础上改进而来的。”

    你这里“ME模型”指的是通用的最大熵模型,还是 ME for MT 模型?
    如果是前者,这个论断有证明支持么?

    [回复]

    sam 回复:

    后者

    [回复]

    emnlp 回复:

    谢谢

    [回复]

  3. 张国梁说:

    怎么做文本分类啊,分出来的词有9万多。

    [回复]

  4. 张国梁说:

    用信息增益选择时,发现有的词在一类文本中有,另一类文本中没有,最后算出的信息熵是无穷大啊。

    [回复]

    52nlp 回复:

    可以看看finallyliuyu关于文本分类的文章,很全,总结得也很好:
    http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html
    里面有信息增益方面的总结,可以试着找她讨论一下这个问题!

    [回复]

  5. 张国梁说:

    想找个人交流一下。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注