再说苹果爱疯的贴身小蜜 死日(Siri)

话说这苹果真是能折腾,一个技术课题硬是折腾成大众话题,弄得满世界都在谈论苹果爱疯的贴身小蜜 “死日”(Siri,没追踪来源,但瞧这名字起的),说是她无所不能,能听得懂主人的心思,自动打理各项事务,从天气预报,到提供股票信息,甚至做笔记。不服不行,人家就是把这个科幻世界的机器人功能产品化了,挑起了大众的好奇心。虽然毁誉参半,批评者与追星者一样多,还是为语言技术扬了名。这不,圣诞节到了,调查表明,美国青少年最喜欢的圣诞礼品有三:(1)礼物券,也就是钱,爱怎么花自己定当然好;(2)时装(爱美之心);(3)苹果产品(因为那是时髦的代名词)。

前些时候,与朋友谈到死日,我说它有三大来源:首先是语言技术,包括语音识别和文句分析。语音识别做了很多年了,据说技术相当成熟可用了(语音虽然是我的近邻了,但隔行如隔山,我就不评论了)。文句分析(这可是我的老本行)当然有难度,但是因为死日是目标制导,即从目标app反推自然语言的问句表达法,所以分析难度大为降低,基本上是 tractable 的(见《立委随笔:非常折服苹果的技术转化能力》)。第二个来源是当年 AskJeeves 借以扬名的 million-dollar idea (见《【 IT风云掌故:金点子起家的 AskJeeves 】》),巧妙运用预知的问题模板,用粗浅的文句分析技术对应上去,反问用户,从而做到不变应万变,克服机器理解的困难。最近有人问死日:Where can I park the car? 死日就反问道:you asked about park as in a public park, or parking for your vehicle? 虽然问句表明了这位贴身小蜜是绣花枕头,徒有其表,理解能力很有限,但是对于主人(用户)来说,在两个选项中肯定一个不过是举“口”之劳的事情。第三个来源就是所谓聊天系统,网上有不少类似的玩具(见【立委科普:问答系统的前生今世】 第一部分) ,他是当年面临绝路的老 AI 留下的两大遗产之一(另一个遗产是所谓专家系统)。

最近摆弄汉语自动分析,有老友批评得很到位:

Quote
俺斗胆评论一下,您的系统长项应该在于自然 语言理解

至于语法树,应该是小儿科。韩愈说“句读之不知,惑 之不解”。

语法树的作用在于“知句读”,而您的系统应该强调“解惑”。

俺感觉照现在的发展速度,一个能够真正通过图灵检验的系统应该离我们不远了。虽然现在已经有系统号称能通过,但是都是聊天系统,干的本身就是不着调的工作。离真正意义的图灵检验还有距离。

是小儿科,可是很多人弄不了这小儿科呢。
日期: 12/05/2011 13:41:30

从high level看,从100年后看,说小儿科也差不多。

但是你所谓的解惑,离开现实太远。

一般来说,机器擅长分析、抽取和挖掘,上升到预测和解惑还有很长的路,除非预测是挖掘的简单延伸,解惑就是回答黑白分明的问题。

“聊天系统,干的本身就是不着调的工作”,一点儿不错,那是所谓 old AI 的残余。不过,即便如此,我在 苹果 Siri 中看到的三个来源(1.自然语言技术:语音和文字 2 Askjeeves 模板技术;3. 所谓 AI 聊天系统)中也看到了它的影子,它是有实用价值的,价值在于制造没有理解下的 “人工智能” 的假象。

昨天甜甜秀给我看:Dad, somebody asked Siri: what are you wearing? Guess how he replies?

Siri: “Aluminosilicate glass and stainless steel. Nice, huh?”

这种 trick,即便知道是假的,也让人感觉到设计者的一份幽默。

那天在苹果iPhone4s展示会上,临结束全场哄堂大笑,原来苹果经理最后问了一个问题:Who are you?

Siri 扭着细声答道:

I am your humble assistant.

面对难以实现的人工智能,来点儿幽默似的假的人工智能,也是一种智慧。

相关篇什:
《立委随笔:非常折服苹果的技术转化能力。。。》
《从新版iPhone发布,看苹果和微软技术转化能力的天壤之别》
科学网—【立委科普:问答系统的前生今世】
科学网—《立委随笔:人工“智能”》

发表在 自然语言处理 | 2 条评论

坚持四项基本原则,开发鲁棒性NLP系统

以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)。本文就简单谈一下鲁棒性。

为了取得语言处理的鲁棒性(robustness),一个行之有效的方法是实现四个形容词的所指:词汇主义(lexicalist); 自底而上(bottom-up); 调适性(adaptive);和数据制导(data-driven)。这四条是相互关联的,但各自重点和视角不同。系统设计和开发上贯彻这四项基本原则, 是取得坚固性的良好保证。有了坚固性,系统对于不同领域的语言,甚至对极不规范的社会媒体中的语言现象,都可以应对。这是很多实用系统的必要条件。

先说词汇主义策略。词汇主义的语言处理策略是学界和业界公认的一个有效的方法。具体说来就是在系统中增加词汇制导的个性规则的总量。自然语言的现象是如此复杂,几乎所有的规则都有例外,词汇制导是必由之路。从坚固性而言,更是如此。基本的事实是,语言现象中的所谓子语言(sublanguage),譬如专业用语,网络用语,青少年用语,他们之间的最大区别是在词汇以及词汇的用法上。一般来说,颗粒度大的普遍语法规则在各子语言中依然有效。因此,采用词汇主义策略,可以有效地解决子语言的分析问题,从而提高系统的鲁棒性。
自底而上的分析方法。这种方法对于自浅而深的管式系统最自然。系统从单词出发,一步一步形成越来越大的句法单位,同时解析句法成分之间的关系。其结果是自动识别(构建)出来的句法结构树。很多人都知道社会媒体的混乱性,这些语言充满了错别字和行话,语法错误也随处可见。错别字和行话由词汇主义策略去对付,语法错误则可以借助自底而上的分析方法。其中的道理就是,即便是充满了语法错误的社会媒体语言,其实并不是说这些不规范的语言完全不受语法规则的束缚,无章可循。事实绝不是如此,否则人也不可理解,达不到语言交流的目的。完全没有语法的“语言”可以想象成一个随机发生器,随机抽取字典或词典的条目发射出来,这样的字串与我们见到的最糟糕的社会媒体用语也是截然不同的。事实上,社会媒体类的不规范语言(degraded text)就好比一个躁动不安的逆反期青年嬉皮士,他们在多数时候是守法的,不过情绪不够稳定,不时会”突破”一下规章法律。具体到语句,其对应的情形就是,每句话里面的多数短语或从句是合法的,可是短语(或从句)之间常常会断了链子。这种情形对于自底而上的系统,并不构成大的威胁。因为系统会尽其所能,一步一步组合可以预测(解构)的短语和从句,直到断链的所在。这样一来,一个句子可能形成几个小的句法子树(sub-tree),子树之内的关系是明确的。朋友会问:既然有断链,既然子树没有形成一个完整的句法树来涵盖所分析的语句,就不能说系统真正鲁棒了,自然语言理解就有缺陷。抽象地说,这话不错。但是在实际使用中,问题远远不是想象的那样严重。其道理就是,语言分析并非目标,语言分析只是实现目标的一个手段和基础。对于多数应用型自然语言系统来说,目标是信息抽取(Information Extraction),是这些预先定义的抽取目标在支持应用(app)。抽取模块的屁股通常坐在分析的结构之上,典型的抽取规则 by nature 是基于子树匹配的,这是因为语句可以是繁复的,但是抽取的目标相对单纯,对于与目标不相关的结构,匹配规则无需cover。这样的子树匹配分两种情形,其一是抽取子树(subtree1)的规则完全匹配在语句分析的子树(subtree2)之内(i.e. subtree2 > subtree1),这种匹配不受断链的任何影响,因此最终抽取目标的质量不受损失。只有第二种情形,即抽取子树恰好坐落在分析语句的断链上,抽取不能完成,因而印象了抽取质量。值得强调的是,一般来说,情形2的出现概率远低于情形1,因此自底而上的分析基本保证了语言结构分析的鲁棒性,从而保障了最终目标信息抽取的达成。其实,对于 worst case scenario 的情形2,我们也不是没有办法补救。补救的办法就是在分析的后期把断链 patch 起来,虽然系统无法确知断链的句法关系的性质,但是patched过的断链形成了一个完整的句法树,为抽取模块的补救创造了条件。此话怎讲?具体说来就是,只要系统的设计和开发者坚持调适性开发抽取模块(adaptive extraction)的原则,部分抽取子树的规则完全可以建立在被patched的断链之上,从而在不规范的语句中达成抽取。其中的奥妙就是某样榜戏中所说的墙内损失墙外补,用到这里就是结构不足词汇补。展开来说就是,任何子树匹配不外乎check两种条件约束,一是节点之间的关系句法关系的条件(主谓,动宾,等等),另外就是节点本身的词汇条件(产品,组织,人,动物,等等)。这些抽取条件可以相互补充,句法关系的条件限制紧了,节点词汇的条件就可以放宽;反之亦然。即便对于完全合法规范的语句,由于语言分析器不可避免的缺陷而可能导致的断链(世界上除了上帝以外不存在完美的系统),以及词汇语义的模糊性,开发者为了兼顾查准率和查全率,也会在抽取子树的规则上有意平衡节点词汇的条件和句法关系的条件。如果预知系统要用于不规范的语言现象上,那么我们完全可以特制一些规则,利用强化词汇节点的条件来放宽对于节点句法关系的条件约束。其结果就是适调了patched的断链,依然达成抽取。说了一箩筐,总而言之,言而总之,对于语法不规范的语言现象,自底而上的分析策略是非常有效的,加上调适性开发,可以保证最终的抽取目标基本不受影响。
调适性上面已经提到,作为一个管式系统的开发原则,这一条很重要,它是克服错误放大(error propagation)的反制。理想化的系统,模块之间的接口是单纯明确的,铁路警察,各管一段,步步推进,天衣无缝。但是实际的系统,特别是自然语言系统,情况很不一样,良莠不齐,正误夹杂,后面的模块必须设计到有足够的容错能力,针对可能的偏差做调适才不至于一错再错,步步惊心。如果错误是 consistent/predictable 的,后面的模块可以矫枉过正,以毒攻毒,错错为正。还有一点就是歧义的保存(keeping ambiguity untouched)策略。很多时候,前面的模块往往条件不成熟,这时候尽可能保持歧义,运用系统内部的调适性开发在后面的模块处理歧义,往往是有效的。
最后,数据制导的开发原则,怎样强调都不过分。语言海洋无边无涯,多数语言学家好像一个爱玩水的孩子,跳进海洋往往坐井观天,乐不思蜀。见树木不见森林,一条路走到黑,是很多语言学家的天生缺陷。如果由着他们的性子来,系统的overhead越来越大,效果可能越来越小。数据制导是迫使语言学家回到现实,开发真正有现实和统计意义的系统的一个保证。这样的保证应该制度化,这牵涉到开发语料库(dev corpus)的选取,baseline 的建立和维护,unit testing 和
regression testing 等开发操作规范的制定以及 data quality QA 的配合。理想的数据制导还应该包括引入机器学习的方法,来筛选制约具有统计意义的语言现象反馈给语言学家。从稍微长远一点看,自动分类用户的数据反馈,实现某种程度的粗颗粒度的自学习,建立半自动人际交互式开发环境,这是手工开发和机器学习以长补短的很有意义的思路。
以上所述,每一条都是经验的总结,背后有成百上千的实例可以详加解说。不过,网文也不是科普投稿,没时间去细细具体解说了。做过的自然有同感和呼应,没做过的也许不明白,等做几年就自然明白了,又不是高精尖的火箭技术。
发表在 自然语言处理 | 11 条评论

应该立法禁止分词研究 :=)

RE: 分词当然是第一关。这个没弄好,其他的免谈


现如今中文自动分析的瓶颈早已不是分词了
日期: 12/05/2011 15:43:43
半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。

统 计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.

或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules),这当然要看系统设计者的经验和智慧了。中文处理在分词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。

深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。
发表在 自然语言处理 | 10 条评论

recruiting Ph.D. students

Ph.D. level graduate research assistants in machine learning and NLP

The machine learning and natural language processing lab at Kno.e.sis center in the Department of Computer Science and Engineering at Wright State University is recruiting highly motivated Ph.D. students working on three projects: (1) semi-supervised structured prediction, (2) large scale distributed language modeling and (3) direct loss minimization for classification problems, that are funded by NSF, AFOSR and Google. The students are expected to have strong (a) programming skills (past projects are evidence), and (b) analytical skills (knowledge in algorithms, optimization and statistics is essential). Please contact Dr. Shaojun Wang (http://knoesis.wright.edu/faculty/swang/) at shaojun.wang@wright.edu to know the detail. Please visit http://knoesis.wright.edu and http://knoesis.wright.edu/aboutus/press/Flyer.pdf to know Kno.e.sis center.

发表在 自然语言处理 | 留下评论

第十二次沙龙活动(特邀董振东老师做讲座)报名

题目: 知网及其应用
主讲人:董振东老师
时间:2011年12月11日(周日)下午14:00-17:00
地点:海淀区五道口清华科技园

报名截止日期:12月8日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

发表在 自然语言处理 | 一条评论

中文翻译技术沙龙第十一次活动(特邀董振东老师做讲座)报名

题目: 人本机器翻译
主讲人:董振东老师
时间:2011年11月6日(周日)下午14:00-17:00
地点:海淀区五道口清华科技园

大致会包括如下内容:

1. 动机
2. 人本机器翻译的特点–
a. 人机协同 — 以人为本
b. 知识管理与利用
c. 领域、题材、体裁的专业化
d. 基于内网与外网结合
3. 它与全自动机译,以及机助人译的区别
4. 人本机译系统的构成
5. 人本机译的用户群(内部用户与一般用户)、市场的培育、拓展
6. 机译系统开发与机译研究的关系

报名截止日期:11月4日(周五)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

发表在 自然语言处理 | 2 条评论

中文翻译技术沙龙第十一次活动预告

第十一次活动(11月)我们将邀请董振东老师与大家交流,董老师已经愉快地接受了邀请。具体时间将在和董老师商议后确认。

发表在 自然语言处理 | 4 条评论

中文翻译技术沙龙第十次活动报名

时间:2011年10月15日(周六)下午14:00-17:00
地点:五道口清华科技园
费用:无

题目1: 开源输入法SunPinyin解读
主讲人:NUANCE公司何楠

题目2: 第13届国际机器翻译峰会(13th MT Summit)和第7届全国机器翻译研讨会(CWMT2011)的分享会
主讲人:部分参会人员,具体名单待定

报名截止日期:10月13日(周四)

报名者请使用以下格式,回复到邮箱cmt.salon@gmail.com

姓名:
手机:
基本情况介绍:

中文翻译技术沙龙的豆瓣小组是 http://www.douban.com/group/304684/。

中文翻译技术沙龙的QQ群:
NLP:172478666
CAT:172478453

发表在 机器翻译, 自然语言处理 | 标签为 , , , | 留下评论

中文翻译技术沙龙第九次活动

一、沙龙主题:统计语言模型的方法和应用
二、沙龙时间:2011年9月4日(周日)下午2-5点
三、沙龙地点:清华科技园
四、沙龙主持人:胡日勒博士

本次沙龙拟尝试读书会的形式。报名的同时,请告知您打算在沙龙上介绍的与本次活动主题相关的论文。该论文可以是您自己的,也可以是科研中接触到的高水平论文,或者是附件中的论文。如果选择附件的论文,请尽量选择其他人未选择的论文。关于已选择的论文情况,我们会每日在www.52nlp.cn更新。

报名截止日期:9月1日(周四)
报名请回复邮箱cmt.salon@gmail.com
中文翻译技术沙龙的豆瓣小组是http://www.douban.com/group/304684/。
中文翻译技术沙龙的QQ群:80266425(满);172478666(NLP);172478453(CAT)

附件:
1) S. F. Chen and J. Goodman, “An empirical study of smoothing techniques for language modeling”, Technical Report TR-10-98, Computer Science Group, Harvard University, Aug. 1998.
2)A. Stolcke, “Entropy-based pruning of backoff language models”, in Proceedings DARPA Broadcast News Transcription and Understanding Workshop, pp. 270–274, Lansdowne, VA, Feb. 1998. Morgan Kaufmann.
3)P. F. Brown, V. J. Della Pietra, P. V. deSouza, J. C. Lai, and R. L. Mercer, “Class-based n-gram models of natural language”, Computational Linguistics, vol. 18, pp. 467–479, 1992.
4)Kuhn R, De Mori R. A cache-based natural language model for speech reproduction. IEEE PAMI,1990 12(6), page:570-583
5)Kuhn R, De Mori R. Corrections to A cache-based natural language model for speech reproduction. IEEE PAMI,1992 14, page:691-692
6)Goodman J. A bit of progress in language modeling. In Computer Speech and Language, 2001, 15(4), pages: 403-434
7)R. Rosenfeld, “Two decades of statistical language modeling: Where do we go from here?”, Proceedings of the IEEE, vol. 88, 2000.
8)R. Rosenfeld, A Maximum Entropy Approach to adaptive statistical language modeling, Computer Speech and Language 1996, 10, pages: 187-228
9)Bengio Y, Ducharme R, Vincent P, Jauvin C. A Neural Probabilistic Language Model, In Journal of Machine Learing Research, 2003(3), pages: 1137-1155.
10)Xu P, Chelba C, Jelinek F. A Study on Richer Syntactic Dependencies for Structured Language Modeling, ACL2002.
11)Chelba C, Jelinek F. Structured Language Modeling, Computer Speech and Language 2000, 14(4),pages: 283-332.
12)Gao J F, Lin C Y. Introduction to the Special Issue on Statistical Language Modeling. ACM transactions on Asian language information processing, 2004, Vol 3, No.2 pages: 87-93
13)Berger A L, Della Pietra S A, Della Pietra V J. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics. 1996, 22(1), pages : 1-36
14)Clarkson P R, Robinson A J. Language model adaptation using mixtures and Exponentially. Decaying cache. ICASSP, 1997, vol 2 pages: 799-802
15)Kneser R, Steinbiss V. On the Dynamic Adaptation for Stochastic Language Models. ICASSP 1993.
16)Kneser R, Ney H. Improved Backing-off for ngram language modeling. ICASSP 1995, Vol 1,pages:181-184
17)Khudanpur S, Wu J. A Maximum Entropy Language Model Integrating N-Gram and Topic Dependency of Conversational Speech Recognition, In ICASSP 1999, Pages: 553-556
18)Gildea D, Hofmann T. Topic-Based Language Model Using EM. In Eurospeech 1999, pages 2167-2170.
19)Brants Thorsten, Popat Ashok. 2007. Large Language Models in Machine
Translation. In Proceedings of the 2007 Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language Learning:
858-867.
20)Deyi Xiong, Min Zhang, & Haizhou Li: Enhancing language models in statistical machine translation with backward n-grams and mutual information triggers. ACL-HLT 2011: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, June 19-24, 2011; pp.1288-1297. [PDF, 620KB]

21)(已选)Adam Pauls & Dan Klein: Faster and smaller n-gram language models. ACL-HLT 2011: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, June 19-24, 2011; pp.258-267. [PDF, 246KB]

22)(已选)Robert C.Moore & William Lewis: Intelligent selection of language model training data. ACL 2010: the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, July 11-16, 2010: Proceedings of the Conference Short Papers; pp.220-224. [PDF, 176KB]

发表在 自然语言处理 | 留下评论

IJCNLP 2011 Accepted Papers

继续阅读

ID Status Title Author(s) Affiliation
3 full oral Extract Chinese Unknown Words from a Large-scale Corpus Using Morphological and Distributional Evidences Kaixu Zhang, Ruining Wang and Maosong Sun Tsinghua University
发表在 自然语言处理 | 标签为 | 留下评论