月度归档:2011年02月

中文机器翻译沙龙第四次活动报名和第三次活动小结

Deep Learning Specialization on Coursera

时间:2011年3月6日(周日)下午14:00-17:00
报名截止日期:3月3日(周四)
地点:有道会议室(五道口清华科技园)
费用:无
沙龙讨论题目:基于语料库的句法分析

报名请回复邮箱cmt.salon@gmail.com
本次沙龙活动属于自由讨论的性质,如果有希望做主题发言的,请告知。
为了使讨论更深入和有成效,可以告知您感兴趣的子议题。
中文机器翻译的豆瓣小组是http://www.douban.com/group/304684/

以下是第三次活动的小结:
本次聚会如期在上岛咖啡举行。共有十三人参加,包括来自北京大学外国语学院翻译硕士教育中心的王华树老师,东方爱译老总张龙哺先生,以及其他来自公司和高校的对CAT感兴趣的朋友。

本次沙龙的主题是计算机辅助翻译(CAT)的应用现状和问题。大家对于CAT的核心技术问题以及市场问题进行深入讨论。王华树老师结合自己的从业实践和教学体验,针对翻译环境、翻译流程、翻译技术、翻译行业地位等方面同大家进行了探讨,希望大家看清翻译行业面临的根本问题,共同寻找解决的出路。张龙哺先生则介绍了自己长期从事CAT研发的心得体会,包括东方爱译的新一代人工智能翻译技术(TM++、MT+、以及混合翻译模式等),过去在国家专利局的相关科研经历,以及雅信的相关情况。张先生强调国产的软件其实在很多方面比国外的软件更好,更适合中国的应用。其他与会的朋友也各抒己见,就个人研发和使用计算机辅助翻译软件中的问题交换了意见。沙龙在六点左右结束。限于时间,很多问题的讨论还不够深入,王华树老师建议专门对于计算机辅助翻译的评测问题再展开专题研讨。

最后大家大致讨论了下期沙龙的可能的话题,如对句法分等。另外,王华树老师等提出了建立沙龙交流机制(如QQ群组、沙龙论坛和沙龙网站)和管理机制(成员管理),确保沙龙健康发展。

相关链接-王华树老师的博客:http://blog.sina.com.cn/s/blog_6d51f6da0100otmq.html

共建词库等基础NLP资源的倡议

Deep Learning Specialization on Coursera

笔者深感免费共享的中文NLP资源的匮乏,有意将自己整理的词库等NLP资源分享出来,希望能获得更多的NLP爱好者的响应与支持,群策群力,共建NLP基础资源(如常用词语,常用姓氏,语义词典,反义词词典,近义词词典,句法库等等)。

笔者的这个倡议,刚在“自然语言理解一”QQ群发出,即得到了“总督”、“雨霁”等等的支持。“总督”建议:根据不同的应用,通过大家的讨论,确定词性标准,建立不同的词库,如为句子的树库而标,为统计语言现象而标,为教学目的而标等等。“雨霁”建议:限定范围,目的性强一些,为某些领域、专属名词建词库,如地名、机构名。

在此,抛砖引玉,希望大家能积极地拍砖扔鸡蛋(:))。

附我的词库的截图:

ACL-HLT 2011: List of Accepted Papers

Deep Learning Specialization on Coursera

  第49届国际计算语言学学术会议(Annual Meeting of the Association for Computational Linguistics,ACL)和人类语言技术会议(Human Language Technology,HLT)的联合会议(ACL-HLT 2011: Joint Conference of the 49th Annual Meeting of the Association for Computational Linguistics and the Human Language Technologies Conference) 将于2011年6月19号至24号在美国俄勒冈州波特兰市召开,目前ACL-HLT 2011官方网站上已经给出了今年的long paper录用情况,以下转载自ACL-HLT 2011的官方网站上的“List of Accepted Papers”。
继续阅读

自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?

Deep Learning Specialization on Coursera

  这几天估计很多人都在关注IBM超级计算机沃森(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中的表现,而在经历了三天的比赛后,沃森终于击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者:IBM超级计算机在智力问答比赛中击败人类。与这场“人机大战”相关的信息中,几乎都会提及“自然语言处理”,毕竟沃森首先需要突破的就是能“理解人类的语言”,这当然是“自然语言处理”的份内之事。而在我看来,IBM沃森看起来更像一个超级的“自动问答”系统,当然,沃森背后凝聚的岂止是“自动问答”,它是一个包含了海量数据处理,机器学习,信息提取,文本分析,知识推理,自动问答等众多技术的的超级“人工智能”结合体。
  下午在看到这个消息时,我有一个很强烈的念头,要写一篇“IBM超级计算机沃森(Watson)背后的自然语言处理技术”,当然,即使写出来,也只能是一个旁观者的角度,需要一定的素材去挖掘。不过刚好有一篇相关的新闻给了我一些启示“IBM宣布八所大学参与沃森计算机系统的开发”:

“我们很高兴与这些在其各自领域表现优异的大学和专家们进行合作,他们可帮助推动作为 IBM沃森系统的支柱的问答技术的进步”,IBM沃森项目组负责人 David Ferrucci 博士表示,“《危险边缘》Jeopardy! 挑战的成功将突破与计算技术的处理和理解人类语言的能力有关的障碍,并将对科学、技术和商业带来深远的影响。”

  这篇文章下面对于每所大学的贡献都给与了简要的描述,通读下来,会发现“自然语言处理”技术在其中扮演着重要的角色。特别是麻省理工学院:

来自麻省理工学院,由计算机科学及人工智能实验室首席研究科学家 Boris Katz 带领的一个研究团队开创了一个名为 START 的在线自然语言问题回答系统,该系统能够使用来自半结构化和结构化信息存储库的信息来非常准确地回答问题。对沃森系统的根本贡献是将问题细分成简单的子问题,以便迅速收集相关回答,然后将这些回答汇合起来形成最终答案的能力。沃森系统的架构还利用了由麻省理工学院开创的对象-属性-值数据模型,该模型支持对半结构化数据源中的信息进行有效的检索,以回答自然语言问题。

  这里面提到的自然语言问答系统START很有意思,有兴趣的读者可以试着问两个问题看看:”What is start" and "How old are you"! 继续阅读

摘录:祖国应该做海外华人更好的娘家-新马之旅观感

Deep Learning Specialization on Coursera

  偶尔会去“张华平博士的空间”看看,多数情况下他都会写些与教学或者技术相关的博文。今晚发现他前几天写了一篇《祖国应该做海外华人更好的娘家-新马之旅观感》,读完感慨良多,本想在张老师的文章下留个言,没想到百度空间必须注册才能发表评论,就想到这里了!虽与自然语言处理无关,但觉得还是有一些读者会感兴趣的。以下仅摘录第一段和最后一段,有兴趣的读者可以去张老师的空间看全文。

无法脱俗,春节期间携夫人一起走了一趟新马,新加坡与马来西亚的热带雨林气候造就了这片热土,常年四季如夏,雨水充足,森林覆盖面超过50%,人与自然的和谐统一,人民生活得非常惬意,没有我们那么压力山大。新加坡的人均收入3000新币(大约人民币1.5万),各类开销比较小,政府几乎负担了生老病死,教育从小到大完全免费。向国家买房,代价也不过30万人民币,化妆品国外品牌的服装基本上也就国内价格的5-8折,中国的烟酒在国外只需国内价格的5-8 折,大家明白财政收入增长的原由了吧,祖国,我们拿最低的薪水,花最高的物价,悲乎?马来西亚的经济水平比我们差,但是全民教育免费,看任何病1马币,在吉隆坡购买一套房也不过3万马币(约6.4万人民币),保障了国民的教育、医疗和住房,中国立马和谐稳定。我们还有很大的差距,还有很多的工作要做。

...

有位好友在日本生活多年,因为民族感情,迟迟不愿加入日本国籍,去年归国,有关部门以超生为由,至今无法为他的一对儿女落户,成为黑户,不得以加入加拿大国籍,苦笑一句:“我爱祖国,祖国不爱我”。改用西汉名将甘延寿和陈汤的名句,“犯我大汉子民者,虽远,必诛!”,祖国不是空泛的概念,不仅仅是动员我们奉献的主体,更应该是我们的娘家,是在我们包括海外华人受到侵犯是的保护神,这些才能让我们感觉到祖国的存在。政府和外交还有很大的差距。

  而至于我的感慨,此处省略五千字!
继续阅读