中文机器翻译沙龙第五次活动报名和第四次活动小结

时间:2011年3月27日(周日)下午14:00-17:00
报名截止日期:3月24日(周四)
地点:五道口清华科技园
费用:无
主讲人:1. 中国科学技术信息研究所宋培彦博士
                2. 国家知识产权局王进先生
题目: HNC相关理论和研究

报名请回复邮箱cmt.salon@gmail.com

中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第四次活动的小结:
本次沙龙活动在清华科技园的有道会议室举行。共有二十四人参加,包括来自有道、百度、腾讯、金山、高德、泰为、老虎宝典、同方知网等公司以及国知局、新华社等单位的人士,以及来自清华、北京语言大学、中科院计算所、北航、北师大等高校的研究生。

本次沙龙的主题是基于语料库的句法研究。大家对于目前应用最广泛的短语结构语法和依存语法进行了深入讨论。虽然目前分词技术相对成熟,但是句法分析是制约自然语言处理的瓶颈。而且分词中的错误可能会在后续处理中放大,来自中科院计算所的同学介绍了目前分词和句法分析以及翻译进行联合处理的技术。

而无论是短语结构语法还是依存语法,这些在英语句法分析中的方法,都很难说是适合汉语的句法分析的。相对于“形合”的英语、日语等语言来说,“意合”的汉语进行句法分析可能无法离开语义分析。大家举了“爱斯基摩的雪”、“英文的sister和中文的姐妹”,“今天星期三”,“这个很冠希”等具体例子,分析了词汇、概念、语义、隐喻等对句法分析的影响。

另外,虽然国外已经有相对成熟的语料库,如宾大。但国内这方面的研究仍然不足。目前的中文语料库建设仍存在很多问题。已有语料库除了不共享、不兼容外,多数是应用于科研和教学。而如何将语料库应用于中文翻译技术的相关研究仍然薄弱。

来自企业界的朋友对于自然语言在特定领域(如财经专利等)的应用提出了自己的想法,还讨论了关心的错别字问题,新词汇问题,问答系统等。

在讨论中,大家都认为目前中文句法分析仍然存在理论上的薄弱,因此建议下次沙龙活动以HNC为主题。另外大家对平行语料库的相关研究也比较感兴趣,可以在以后的沙龙中深入讨论。

此条目发表在机器翻译, 自然语言处理分类目录,贴了, , 标签。将固定链接加入收藏夹。

中文机器翻译沙龙第五次活动报名和第四次活动小结》有 6 条评论

  1. 王 增才说:

    我现在做用机器学习的方法来识别短语规则的实验。

    [回复]

    kingsten_88 回复:

    期望有所进展,如果用ADIOS,则效果不很明显

    [回复]

  2. 我现在都不敢用网上的翻译工具翻译,太多语法错误了

    [回复]

    52nlp 回复:

    用来辅助翻译,对于语法错误,自己改改就行了。

    [回复]

    naturengie 回复:

    为什么不能做到外语6级水平,没道理。

    [回复]

  3. naturengie说:

    HNC有点意思。
    用google App engine来自动抓取网页,生成HNC怎么样。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注