第五届全国机器翻译研讨会后续

  第五届全国机器翻译研讨会已于10月16日至17日在南京大学举行完毕,虽未亲自参加整个会议,但是还是比较关注这次会议的一些情况。从师弟那里得知,明年由于COLING 2010在北京举行,将不再举办机器翻译研讨会。而后年由于第十三届机器翻译峰会将在厦门举行,第六届全国机器翻译研讨会将紧随机器翻译峰会在厦门举办。
  目前会议的paper和ppt已经可以下载了,具体见:
  http://www.icip.org.cn/cwmt2009/program.html
  特别值得关注的是,基于层次短语模型的开源解码器Joshua的作者Zhifei Li做了一场关于“Training and Inference Methods over Translation Forest”的学术讲座,据说非常不错,大家可以看看PPT。作者目前在约翰霍普金斯大学著名的CLSP实验室(Center for Language and Speech Processing)攻读博士学位。
  另外科学网上李斌博士的博客上写了一篇关于本届会议的观感,写得简洁明了,最后就在这里转载了!

       全国第五届机器翻译会议观感

  转眼之间,南京大学承办的第五届机器翻译会议闭幕了。这次会议汇聚了国内主要的机器翻译研究机构的大牛们,会议报告和讨论都十分有激情。会议上,参与今年机器翻译评测的各机构讨论总结了机器翻译及评测的若干问题。我自己并不怎么搞机器翻译,只能就自己的理解总结如下:
  1、国内自己举办的评测,直接推动了国内同行的交流和共同进步。由于评测方是中国人,更能体会评测中存在的问题,这样能更好地敢追甚至超越国际同行。
  2、统计机器翻译方法占据了绝对主流。包括SYSTRAN,虽然主干是几十年来一贯的规则系统,但也增加了很多统计方法,优化翻译结果。
  3、MOSES成为基本平台。酷似SIGHAN的比赛,各支参赛队都用上了摩西系统(http://www.statmt.org/moses/),或直接利用,或修改或重写代码。几天的报告下来,摩西成了最高频的词语。连董振东老师都评价道:你们说参加评测的哪个系统最成功?我看是摩西。
  4、语言知识的利用进一步加强。句法分析的引入,使得SMT效果有了一定的提升。句法信息,作为一种结构化的启发性知识,应该可以提升效果。句法分析的质量对提升度也基本成正比。那么下一步需要什么样的语言知识,成为与会者关注的话题。毕竟这不是一个简单的问题,google的大牛就说,SMT中的语言知识是有害的。
  5、机器翻译的产学研一体化还有很长的路要走。由于目前的机器翻译质量很不理想,难以应用到直接的翻译领域,但作为辅助翻译还是有市场的。沈阳的格微软件就推出了国内第一款辅助机译系统。
  6、机器翻译遇到严冬还是春天?机译系统的低性能,多年来的慢进展,使得国家投入也萎靡不振。即使奥巴马政府的白皮书支持美国的MT,也没办法让SMT在十年内达到全新的高度。美国的聪明人很多,语言学家也很多,机器翻译的真正提高,目前还是靠语言资源的增加(比如谷歌的海量数据)。没有新的语言理论,机器翻译不管投入多少钱,不管社会多需要,都不可能达到较为理想的地步。所以,我同意“没钱不好做事情”,但对“有钱就一定可以”持保留意见。
  好了,从语言和计算的角度谈谈自己的看法。我关心的是可计算的语言知识的构建,现有的语言知识库,大都处于唯物主义的范畴,几乎不顾及语言的主观性,所以是僵化的系统。这样的知识并不是语言知识,而是世界知识或常识。语言知识是什么,就拿汉语的语气词来说,“呢”有多种用法,这些用法与什么客观的东西都不相干,而是表达的说话人的不同意图、认识。不从根本上重建基于认知的心理的语言知识库,就没法给机器翻译或其他的NLP带来真正的帮助。

原文链接:
http://www.sciencenet.cn/m/user_content.aspx?id=263200

  读者有兴趣的话也可以对比一下《第四届机器翻译研讨会感受》!

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/cwmt2009-follow-up

此条目发表在机器翻译分类目录,贴了, , , , , , , , , , 标签。将固定链接加入收藏夹。

第五届全国机器翻译研讨会后续》有 2 条评论

  1. alex00zoe说:

    主观化的语言模型。这应该是未来的趋势吧。能问一下,你们现在开始incorporate 那些upper ontology 和各类专门ontology了么?

    [回复]

    52nlp 回复:

    不好意思,这个我不太明白,你可以问一下原文作者李斌博士,原文链接见:
    http://www.sciencenet.cn/m/user_content.aspx?id=263200

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注