标签归档:自然语言处理

中文翻译技术沙龙第十次活动报名

时间:2011年10月15日(周六)下午14:00-17:00
地点:五道口清华科技园
费用:无

题目1: 开源输入法SunPinyin解读
主讲人:NUANCE公司何楠

题目2: 第13届国际机器翻译峰会(13th MT Summit)和第7届全国机器翻译研讨会(CWMT2011)的分享会
主讲人:部分参会人员,具体名单待定

报名截止日期:10月13日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

ACL HLT 2011文章已可下载

距ACL HLT 2011大会还有几天,不过目前大会的论文已经可以在ACL Anthology上下载了,以下是来自于Min-Yen Ka的群邮件。

一、ACL 2010大会论文集:
Proceedings of the 49th Annual Meeting of the Association for
Computational Linguistics: Human Language Technologies can be found
here:

http://www.aclweb.org/anthology/P/P11/

二、Workshop论文集:
The proceedings of co-located events and workshops to ACL HLT 2011 are now available online.

http://www.aclweb.org/anthology/W/W11/

Proceedings of BioNLP 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#0200

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning
http://www.aclweb.org/anthology/W/W11/#0300

Proceedings of the 5th Linguistic Annotation Workshop
http://www.aclweb.org/anthology/W/W11/#0400

Proceedings of the Workshop on Automatic Summarization for Different
Genres, Media, and Languages
http://www.aclweb.org/anthology/W/W11/#0500

Proceedings of the 2nd Workshop on Cognitive Modeling and
Computational Linguistics
http://www.aclweb.org/anthology/W/W11/#0600

Proceedings of the Workshop on Language in Social Media (LSM 2011)
http://www.aclweb.org/anthology/W/W11/#0700

Proceedings of the Workshop on Multiword Expressions: from Parsing and
Generation to the Real World
http://www.aclweb.org/anthology/W/W11/#0800

Proceedings of the ACL 2011 Workshop on Relational Models of Semantics
http://www.aclweb.org/anthology/W/W11/#0900

Proceedings of Fifth Workshop on Syntax, Semantics and Structure in
Statistical Translation
http://www.aclweb.org/anthology/W/W11/#1000

Proceedings of TextGraphs-6: Graph-based Methods for Natural Language
Processing
http://www.aclweb.org/anthology/W/W11/#1100

Proceedings of the 4th Workshop on Building and Using Comparable
Corpora: Comparable Corpora and the eb
http://www.aclweb.org/anthology/W/W11/#1200

Proceedings of the Workshop on Distributional Semantics and
Compositionality
http://www.aclweb.org/anthology/W/W11/#1300

Proceedings of the Sixth Workshop on Innovative Use of NLP for
Building Educational Applications
http://www.aclweb.org/anthology/W/W11/#1400

Proceedings of the 5th ACL-HLT Workshop on Language Technology for
Cultural Heritage, Social Sciences,
and Humanities
http://www.aclweb.org/anthology/W/W11/#1500

Proceedings of the Workshop on Monolingual Text-To-Text Generation
http://www.aclweb.org/anthology/W/W11/#1600

Proceedings of the 2nd Workshop on Computational Approaches to
Subjectivity and Sentiment Analysis (WASSA 2.011)
http://www.aclweb.org/anthology/W/W11/#1700

Proceedings of BioNLP Shared Task 2011 Workshop
http://www.aclweb.org/anthology/W/W11/#1800

Proceedings of the Fifteenth Conference on Computational Natural
Language Learning: Shared Task
http://www.aclweb.org/anthology/W/W11/#1900

The proceedings of the upcoming SIGDIAL 2011 Conference is now available on the ACL Anthology, here:

http://www.aclweb.org/anthology/W/W11/#2000

The SIGDIAL Anthology page also has been updated.
继续阅读

From Google Research Blog: Google at ACL 2011

  自然语言处理与计算语言学的盛会ACL 2011即将在美国俄勒冈州波特兰市举行,而Google Research Blog在昨天发表了一篇“Google at ACL 2011”,给大家及时通报了今年Google在ACL 2011上的参与情况。粗略的看了一下,Google今年在ACL上发表的Paper涉及Part-of-Speech Tagging, Named Entity Recognition, Context-Free Parsing, Translation等自然语言处理的基础领域,值得NLPer们一阅。我是在Google Reader上看到的,直接看原文的话在国内可能需要“翻墙”,为了给大家节省一点“翻墙”的时间以及活跃这里的气氛,以下就全文转载了!
继续阅读

立委科普:问答系统的前生今世

李维老师的文章看起来就是过瘾,这篇文章也是刚刚在科学网上看到的,还有下一篇,感兴趣的读者可以继续关注。前段时间IBM超级计算机沃森(Watson)刚刚出了一把风头,也让关注自然语言处理的读者更关注起自动问答系统了,李维老师的这篇博文无疑让我们对于问答系统的前世今生又有了一次深刻的了解,所以厚着脸皮,以下继续全文转载自李维老师的博文:立委科普:问答系统的前生今世

上周信笔涂鸦写了个不伦不类的科普(【立委科普:从产业角度说说NLP这个行当】),写完自我感觉尚可,于是毛遂自荐要求加精:“自顶一哈:不用谦虚,这个应该加精。也不枉我费了大半天的时辰。” 本来是玩笑话,没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨,怕被编辑打入另册,正琢磨献花还是金币以求青睐,没想到这么快就峰回路转,春暖花开。响鼓不用重敲,原来还是要发奋码字才行,花言巧语的不行。得,一鼓作气,再码两篇。

言归正传,第一篇先介绍一下问答系统(Question Answering system)的来龙去脉。第二篇专事讲解问答系统中的三大难题 What,How 与 Why。

一 前生

传统的问答系统是人工智能(AI: Artificial Intelligence)领域的一个应用,通常局限于一个非常狭窄专门的领域,基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄,词汇总量很有限,其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的,甚至是封闭的集合,合成相应的答案自然有律可循。著名的项目有上个世纪60 年代研制的LUNAR系统,专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。SHRDLE 是另一个基于人工智能的专家系统,模拟的是机器人在玩具积木世界中的操作,机器人可以回答这个玩具世界的几何状态的问题,并听从语言指令进行合法操作。这些早期的AI探索看上去很精巧,揭示了一个有如科学幻想的童话世界,启发人的想象力和好奇心,但是本质上这些都是局限于实验室的玩具系统(toy systems),完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄(部分专家系统虽然达到了实用,基于常识和知识推理的系统则举步维艰),寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统 (chatterbots)一路发展下来至今,成为孩子们的网上玩具(我的女儿就很喜欢上网找机器人对话,有时故意问一些刁钻古怪的问题,程序应答对路的时候,就夸奖它一句,但更多的时候是看着机器人出丑而哈哈大笑。不过,我个人相信这个路子还大有潜力可挖,把语言学与心理学知识交融,应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代,很多人面对压力需要舒缓,很多时候只是需要一个忠实的倾听者,这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者 “对牛弹琴”的先入为主的偏见,或者设法巧妙隐瞒机器人的身份,使得对话可以敞开心扉。扯远了,打住。)
继续阅读

立委科普:从产业角度说说NLP这个行当

“NLP is not magic, but the results you can get sometimes seem almost magical.”

这篇文章是前几天在科学网李维老师的博客上看到的,写得很棒,没有在NLP产业摸爬滚打几十年,是写不出的,这里全文转载,原文见科学网博客, 以下转载自李维老师的博文:立委科普:从产业角度说说NLP这个行当

前面一篇博文的本意,是想借题发挥,从工业运用的角度说说 NLP(Natural Language Processing:自然语言处理)这个行当。不好意思,我算是这个行当在工业界的老古董了(学界不算,学界有的是NLP师爷和大牛)。跟我同期学习这行的同门学长们有小20位,由于这个行当不能在工业界形成规模,他们无一例外都在不同时期改行了,我几乎是幸存在工业界的仅有的化石级元老,赶上了工业应用的末班车。我运气比较好,1986年硕士毕业不久就兼职中关村搞机器翻译的开发,1997年博士快结束又赶上了dot康泡沫的美国大跃进,技术资金源源不断。就是在泡沫破灭后的萧条年代,我也一直对这一行抱有信心,但是从来没有像现在这样信心满满。我的预计,今后20年是 NLP 大显神威的时机,NLP 技术支撑的包括搜索在内的各类信息系统是真正的朝阳产业。(卖瓜的说瓜甜,据说连饶教授这样的大牛都不免。所以读者诸君为免在下误导,可在此打个折扣。)

NLP 技术的工业可行性我认为已经完全被证明了(很多人也许还没有意识到)。证明的实例表现在我们解决了三个信息搜索的难题:1 是解决了搜索 how 的难题;2 是解决了搜索 why 的难题;3 是解决了对客户反馈情报及其动机的抽提(譬如客户对一个产品的好恶)。前两个问题是问答搜索业界公认的最难类型的题目,第三个题目涉及的是语言现象中较难把握的主观性言语(subjective language),并非NLP通常面对的对象(objective language,事实描述的客观性言语),因此成为语言处理最难的课题之一(叫 sentiment extraction)。从问答系统角度来看,回答who/when/where等实体(entity)事实(factoid)的问题比较简单,技术相对成熟,最突出的表现就是IBM的问答系统赢得美国家喻户晓的电视智力竞赛Jeopardy的冠军,电脑打败了人脑,见 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS)。这是因为 JEOPARDY! 的大多数问题是属于实体事实类的问题。具体细节就不谈了,以后有机会再论。总之,这三大公认的难题在过去五年中被我们一个一个解决,标志了作为实用技术的 NLP 已经过了需要证明自己的阶段。

很长一段时间,我们在学界测量一个系统,使用的是两个指标:1 查准率(precision:准确性, 即抓到的有多大比例是抓对了的);2 查全率(recall:覆盖面,即所有该抓到的有多大比例真地抓到了)。Precision 和 recall 的定义如下:

Precision 查准率 = correct 查对数 / (correct 查对数 + spurious 查错数)
Recall 查全率 = correct 查对数 / (correct 查对数 + missing 查漏数)

由于自然语言的歧义(和诡异),要想编制一套两项指标综合水平(术语叫 F-score)都很高的系统非常不容易。这跟打假也差不多,宁肯错杀一千,也不放过一个的蒋中正野蛮政策保证的是查全率;而宁肯放过一千,也不错杀一个的西方文明世界的准则保证的是查准率。要想兼顾二者,做到打得准也打得全,那是很难的。于是我们挖煤工人有时不得不叹气,面对汪洋大海的语言自觉渺小,吾生也有涯,口水没有涯,殆矣,觉得没什么指望了,疑惑红旗到底可以打得多久?

但是,事实是,自然语言系统能否实用,很多时候并不是决定于上述两个学界公认的指标。在信息爆炸的时代,在面对海量数据的时候,还有一个更重要的指标决定着一个系统在现实世界的成败。这个指标就是系统的吞吐量(through-put),系统可以不可以真正地 scale-up。由于电脑业的飞速发展,硬件成本的下降,由于并行分布式运算技术的成熟,吞吐量在现实中的瓶颈主要是经济上的羁绊,而不是技术意义上的难关。运行一个 farm 的 servers,只要有财力维护,能耐的工程师完全可以做到。其结果是革命性的。这种革命性成功的最突出的表现就是 Google 和 Facebook 等公司的做大。

在处理海量数据的问题解决以后,查准率和查全率变得相对不重要了。换句话说,即便不是最优秀的系统,只有平平的查准率(譬如70%,抓100个,只有70个抓对了),平平的查全率(譬如50%,两个只能抓到一个),只要可以scale up,一样可以做出优秀的实用系统来,创造应用程式的奇迹。为什么?根本原因在于两个因素:一是爆炸时代的信息冗余度;二是人类信息消化的有限度。查全率的不足可以用增加所处理的数据量来弥补,这一点比较好理解。既然有价值的信息,有统计意义的信息,不可能是“孤本”,它一定是被许多人以许多不同的说法重复着,那么查全率不高的系统总会抓住它也就没有疑问了。从信息消费者的角度,一个信息被抓住一万次,与被抓住一千次,是没有区别的,信息还是那个信息,只要准确就成。问题是一个查准率不理想的系统怎么可以取信于用户呢?如果是70%的系统,100条抓到的信息就有30条是错的,这岂不是鱼龙混杂,让人无法辨别,这样的系统还有什么价值?沿着这个思路,别说70%,就是高达90%的系统也还是错误随处可见。这样的视点忽略了实际系统中的信息筛选(sampling)与整合(fusion)的环节,因此夸大了系统的个案错误对最终结果的负面影响。实际上,典型的情景是,面对海量信息源,信息搜索者的几乎任何请求,都会有数不清的潜在答案。由于信息消费者是人,不是神,吃的是五谷杂粮,用的是一目最多十行的双眼,靠的是总比电脑慢三万拍的人脑,即便有一个完美无误的理想系统能够把所有结果,不分巨细都提供给他,他也无福消受,simply overwhelmed,就好比再超人的皇帝也无法应对360后宫720殿一样。因此,一个实用系统必须要做筛选整合,把统计上最有意义的结果呈现出来。这个筛选整合的过程可以保证最终结果的质量远远高于系统的个案质量。

总之,size matters,多了就不一样了。那天跟镜子提到这个在黑暗与半明半暗中摸索了几十年悟出来的体会,镜兄气定神闲地说:“那自然,大数定理决定的”。好像一切都在他的预料之中!!

信息的关键载体之一是语言。只要有语言,就需要NLP,你说说NLP该不该有光明的前景?

Quote:
NLP is not magic, but the results you can get sometimes seem almost magical.
(“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”)

引自:http://www.confidencenow.com/nlp-seduction.htm

相关博文:【据说,神奇的NLP可以增强你的性吸引力,增加你的信心和幽会成功率】
http://bbs.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=434774

百度搜索研发部专场招聘会——3月26日(周六)

鉴于对NLP背景同学的人才需求,百度搜索研发部计划在3月份做一场专场招聘,以下内容为代发:

百度搜索研发部将在3月26日(周六)举行专场招聘会,相关职位火热招聘中。

欢迎访问http://hr.baidu.com/extension/20110225/zhaopin.html了解招聘会详情并在线投递职位!

百度

2011年3月

ACL-HLT 2011: List of Accepted Papers

  第49届国际计算语言学学术会议(Annual Meeting of the Association for Computational Linguistics,ACL)和人类语言技术会议(Human Language Technology,HLT)的联合会议(ACL-HLT 2011: Joint Conference of the 49th Annual Meeting of the Association for Computational Linguistics and the Human Language Technologies Conference) 将于2011年6月19号至24号在美国俄勒冈州波特兰市召开,目前ACL-HLT 2011官方网站上已经给出了今年的long paper录用情况,以下转载自ACL-HLT 2011的官方网站上的“List of Accepted Papers”。
继续阅读

自然语言处理对于IBM超级计算机沃森(Watson)意味着什么?

  这几天估计很多人都在关注IBM超级计算机沃森(Watson)在美国最受欢迎的智力竞猜电视节目《危险边缘》中的表现,而在经历了三天的比赛后,沃森终于击败了该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者:IBM超级计算机在智力问答比赛中击败人类。与这场“人机大战”相关的信息中,几乎都会提及“自然语言处理”,毕竟沃森首先需要突破的就是能“理解人类的语言”,这当然是“自然语言处理”的份内之事。而在我看来,IBM沃森看起来更像一个超级的“自动问答”系统,当然,沃森背后凝聚的岂止是“自动问答”,它是一个包含了海量数据处理,机器学习,信息提取,文本分析,知识推理,自动问答等众多技术的的超级“人工智能”结合体。
  下午在看到这个消息时,我有一个很强烈的念头,要写一篇“IBM超级计算机沃森(Watson)背后的自然语言处理技术”,当然,即使写出来,也只能是一个旁观者的角度,需要一定的素材去挖掘。不过刚好有一篇相关的新闻给了我一些启示“IBM宣布八所大学参与沃森计算机系统的开发”:

“我们很高兴与这些在其各自领域表现优异的大学和专家们进行合作,他们可帮助推动作为 IBM沃森系统的支柱的问答技术的进步”,IBM沃森项目组负责人 David Ferrucci 博士表示,“《危险边缘》Jeopardy! 挑战的成功将突破与计算技术的处理和理解人类语言的能力有关的障碍,并将对科学、技术和商业带来深远的影响。”

  这篇文章下面对于每所大学的贡献都给与了简要的描述,通读下来,会发现“自然语言处理”技术在其中扮演着重要的角色。特别是麻省理工学院:

来自麻省理工学院,由计算机科学及人工智能实验室首席研究科学家 Boris Katz 带领的一个研究团队开创了一个名为 START 的在线自然语言问题回答系统,该系统能够使用来自半结构化和结构化信息存储库的信息来非常准确地回答问题。对沃森系统的根本贡献是将问题细分成简单的子问题,以便迅速收集相关回答,然后将这些回答汇合起来形成最终答案的能力。沃森系统的架构还利用了由麻省理工学院开创的对象-属性-值数据模型,该模型支持对半结构化数据源中的信息进行有效的检索,以回答自然语言问题。

  这里面提到的自然语言问答系统START很有意思,有兴趣的读者可以试着问两个问题看看:”What is start" and "How old are you"! 继续阅读