作者归档:cmtsalon

中文机器翻译沙龙第五次活动报名和第四次活动小结

时间:2011年3月27日(周日)下午14:00-17:00
报名截止日期:3月24日(周四)
地点:五道口清华科技园
费用:无
主讲人:1. 中国科学技术信息研究所宋培彦博士
                2. 国家知识产权局王进先生
题目: HNC相关理论和研究

报名请回复邮箱cmt.salon@gmail.com

中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第四次活动的小结:
本次沙龙活动在清华科技园的有道会议室举行。共有二十四人参加,包括来自有道、百度、腾讯、金山、高德、泰为、老虎宝典、同方知网等公司以及国知局、新华社等单位的人士,以及来自清华、北京语言大学、中科院计算所、北航、北师大等高校的研究生。

本次沙龙的主题是基于语料库的句法研究。大家对于目前应用最广泛的短语结构语法和依存语法进行了深入讨论。虽然目前分词技术相对成熟,但是句法分析是制约自然语言处理的瓶颈。而且分词中的错误可能会在后续处理中放大,来自中科院计算所的同学介绍了目前分词和句法分析以及翻译进行联合处理的技术。

而无论是短语结构语法还是依存语法,这些在英语句法分析中的方法,都很难说是适合汉语的句法分析的。相对于“形合”的英语、日语等语言来说,“意合”的汉语进行句法分析可能无法离开语义分析。大家举了“爱斯基摩的雪”、“英文的sister和中文的姐妹”,“今天星期三”,“这个很冠希”等具体例子,分析了词汇、概念、语义、隐喻等对句法分析的影响。

另外,虽然国外已经有相对成熟的语料库,如宾大。但国内这方面的研究仍然不足。目前的中文语料库建设仍存在很多问题。已有语料库除了不共享、不兼容外,多数是应用于科研和教学。而如何将语料库应用于中文翻译技术的相关研究仍然薄弱。

来自企业界的朋友对于自然语言在特定领域(如财经专利等)的应用提出了自己的想法,还讨论了关心的错别字问题,新词汇问题,问答系统等。

在讨论中,大家都认为目前中文句法分析仍然存在理论上的薄弱,因此建议下次沙龙活动以HNC为主题。另外大家对平行语料库的相关研究也比较感兴趣,可以在以后的沙龙中深入讨论。

中文机器翻译沙龙第四次活动报名和第三次活动小结

时间:2011年3月6日(周日)下午14:00-17:00
报名截止日期:3月3日(周四)
地点:有道会议室(五道口清华科技园)
费用:无
沙龙讨论题目:基于语料库的句法分析

报名请回复邮箱cmt.salon@gmail.com
本次沙龙活动属于自由讨论的性质,如果有希望做主题发言的,请告知。
为了使讨论更深入和有成效,可以告知您感兴趣的子议题。
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第三次活动的小结:
本次聚会如期在上岛咖啡举行。共有十三人参加,包括来自北京大学外国语学院翻译硕士教育中心的王华树老师,东方爱译老总张龙哺先生,以及其他来自公司和高校的对CAT感兴趣的朋友。

本次沙龙的主题是计算机辅助翻译(CAT)的应用现状和问题。大家对于CAT的核心技术问题以及市场问题进行深入讨论。王华树老师结合自己的从业实践和教学体验,针对翻译环境、翻译流程、翻译技术、翻译行业地位等方面同大家进行了探讨,希望大家看清翻译行业面临的根本问题,共同寻找解决的出路。张龙哺先生则介绍了自己长期从事CAT研发的心得体会,包括东方爱译的新一代人工智能翻译技术(TM++、MT+、以及混合翻译模式等),过去在国家专利局的相关科研经历,以及雅信的相关情况。张先生强调国产的软件其实在很多方面比国外的软件更好,更适合中国的应用。其他与会的朋友也各抒己见,就个人研发和使用计算机辅助翻译软件中的问题交换了意见。沙龙在六点左右结束。限于时间,很多问题的讨论还不够深入,王华树老师建议专门对于计算机辅助翻译的评测问题再展开专题研讨。

最后大家大致讨论了下期沙龙的可能的话题,如对句法分等。另外,王华树老师等提出了建立沙龙交流机制(如QQ群组、沙龙论坛和沙龙网站)和管理机制(成员管理),确保沙龙健康发展。

相关链接-王华树老师的博客:http://blog.sina.com.cn/s/blog_6d51f6da0100otmq.html

中文机器翻译沙龙第三次活动报名和第二次活动小结

时间:1月16日(周日)下午14:00-17:00
报名截止日期:1月13日(周四)

地点:海淀区某茶馆,具体地点视报名人数再定

费用:AA制
专题:计算机辅助翻译(CAT)的应用现状和问题
报名请回复邮箱cmt.salon@gmail.com
 
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/
以下是第二次活动的小结:
本次聚会如期在北师大举行。共有七人参加,其中包括两位新成员。参加上次沙龙活动的部分成员,因为临近期末考试等原因,未能前来,非常遗憾。感谢北师大的郭同学热情提供了场地、投影仪、电脑等设施,使本次沙龙活动得以顺利举行。 

本次沙龙的主题是机器翻译评测。基本上以2009年的机器翻译评测大纲和评测总结报告为题材,大家一起组织了共同的学习。在BLEU基础上进行改进的BLEU-SBP是主要的评测方法。另外微软的Woodpecker在汉英评测方向进行了应用,其评测结果与BLUE-SBP有很大的差异。报告认为Woodpecker的评测方法“更加可信”。 

大家也讨论了其他的评测技术,如NIST、GTM、mWER、mPER、ICT以及基于HNC的评测技术。通过本次沙龙活动,大家对目前主流评测技术的特点和不足有了更深的认识。沙龙成员建议将沙龙活动的材料上传到网上,限于条件目前还无法实现。 

另外,大家还讨论了诸如学业与就业的相关问题。最后确定了下次沙龙活动的主题是计算机辅助翻译,时间初步确定在2011年的1月16日。