机器翻译:多一点宽容

  这两天“我爱自然语言处理”的一些访问来源于CSDN的推介,于是查了一下,发现与CSDN的一则新闻有关:《Google研发手机翻译软件 人类有望无需学外语》,里面除了原始新闻的简单摘译外,附加了Franz Och的介绍——引用了《统计机器翻译英雄谱一:Franz Josef Och》中的部分内容。
  “东芝开发智能手机翻译软件”刚过去不久,这次又轮到Google,看来移动终端的争夺是大势所趋,估计过不了多久微软也会抛出一个基于Windows CE开发的手机翻译软件。不过无论这些大企业如何宣传,我对机器翻译尤其是统计机器翻译的态度依然是:完全智能化的翻译是远大目标,是人工智能的终极体现,但目前机器翻译还不能取代人,只能辅助人。
  Google在线翻译是统计机器翻译的一个典型应用,其翻译质量在目前的机器翻译中的算是比较不错的了,但即使如此,如果指望Google翻译来完成翻译工作,除非完全不懂那门外语,否则肯定是脑子锈透了。多数人用Google翻译主要是协助自己工作,机助人译大概是目前机器翻译所能发挥的最大作用了,所以虽然常常见到有些人拿“古诗词”来考验Google,甚至一句话在Google翻译中跑一圈,然后再拿结果来嘲笑“Google翻译”,但是嘲笑归嘲笑,我估计他们过后还是依然用Google。
  回头再来看这则新闻,事实上英文原始新闻的题目是《Google leaps language barrier with translator phone》,也许CSDN的编辑为了吸引眼球,就加了后半句“人类有望无需学外语”,不过与英文原文对比起来,CSDN的这则新闻实在有些简化,因此所表达的意思估计重点就成了“人类有望无需学外语”,所以评论多以批评、嘲讽为主。读了一下英文原文,发现Franz Och主要强调的是以下几点:
  1)“We think speech-to-speech translation should be possible and work reasonably well in a few years’ time”
  2) Clearly, for it to work smoothly, you need a combination of high-accuracy machine translation and high-accuracy voice recognition, and that’s what we’re working on.
  3) Although automatic text translators are now reasonably effective, voice recognition has proved more challenging.
  Franz Och主要表达了未来几年手机上语音到语音自动翻译的可能性,并强调了目前文本机器翻译reasonably effective,而挑战再于语音识别。我觉得“reasonably effective”是值得推敲的,目前统计机器翻译在一些受限领域的翻译是可以达到“reasonably effective”的。另外,虽然Google翻译目前对于汉语和英语的翻译结果不是很理想,但是在那些区别相对较小的语言对里,如英语和法语,统计机器翻译的效果也许要好一些,有可能“reasonably effective”。恰好,我看到了英文原文的一条评论:

Google Translate between English, French, German, Spanish is absolutely amazingly good. Anyone criticizing it has not tried it recently. The reason why those translations are now very good is because Google has enormous amounts of professionally translated texts from the European Union and the United Nations, where by just adding more and more examples to Google’s database, the translations become better and better.

Also, Google can use their search technology to analyse the probable context of every bit of translation. Thus increasing the probable quality.

  虽然那里面的评论不乏一些批评,但是这些批评往往不是无端指责和嘲讽,更多的时候有理有据,甚至写得很长。这条评论很长,对“reasonably effective”最有利的佐证就是“Google Translate between English, French, German, Spanish is absolutely amazingly good.”。我曾经利用Moses及欧洲议会平行语料库搭建过法英统计机器翻译平台,虽然不懂法语,但是试着翻译一些法语句子,印象深刻的就是翻译的英文句子可读性比较好。而对于Google来说,其平行数据的规模及处理能力非常人能及,所以Franz Och说Google 翻译“reasonably effective”还是有一定依据的。
  机器翻译的“巴别塔(Tower of Babel)”不是一朝一夕建成的,对于Franz Och及Google翻译,求全责备不太应该,我们不能指望“这个软件如果研发成功,将有望改变全球说各种不同语言(据估计目前世界在使用的语言有6000 多种)的人之间的沟通方式,人们也不再需要为了与人口头交流而去学习外语”,只是希望在机器翻译这条路上,Franz Och及Google能带给我们更多的惊喜和技术体验;而对于CSDN这则机器翻译新闻,大可以一笑了之。

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/机器翻译多一点宽容

此条目发表在机器翻译, 随笔分类目录,贴了, , , , , 标签。将固定链接加入收藏夹。

机器翻译:多一点宽容》有 6 条评论

  1. Mars说:

    呵呵,我倒是觉得学术界对于机器翻译太宽容了,对于这样一个“遥远”的任务是不是投入了太多的资金和精力?

    [回复]

    52nlp 回复:

    不投入可能更遥远,不过这些资金应该花在刀刃上才是正道,呵呵!春节快乐!

    [回复]

  2. tao z说:

    博主,关注你博客很久了,收获很多!十分感谢。
    我现在试着去搭建计算所的silkroad,发现giza++的windows版本下载需要用户名和密码。
    博主能给我发一份么?十分感谢。
    邮箱:ztbpf@126.com
    十分感谢!

    [回复]

    52nlp 回复:

    找了一下以前的备份,发现了BlueGene的Giza++ Windows版本:GIZA++.Win32.BlueGene.rar,发到你邮箱里了。印象配置这个比较麻烦,不过压缩包里BlueGene把配置过程写得很清楚了。最后建议最好在Linux下编译调试原始的Giza++代码以及搭建Moses系统。

    [回复]

  3. Edison说:

    博主您好,

    我也需要GIZA++.Win32.BlueGene.rar,不知能否提供?

    非常感谢。

    [回复]

    52nlp 回复:

    抱歉,这么久才回复,已经发到你邮箱了。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注