作者归档:liwei999

【科普随笔:NLP主流的傲慢与偏见】

上篇博文【科普随笔:NLP的宗教战争?兼论深度学习】匆匆写就发出以后,没想到在新浪微博上一夜间有好几万点击,而平时我在新浪转发的博文最多也不到几千点击。想来一是题目比较花哨(宗教,深层学习,都是容易引起热议的 buzz words),难逃标题党嫌疑;二来内容也容易引起这个领域的争论、不屑或共鸣。

需要说明一句,那篇里面关于深度学习的notes,是信口发挥,各位不要认真,因为对于这样崭新的东西我是老外,是想当然地瞎议论,难免牵强。万一从某个角度让人看出了“道理”,那也纯粹是瞎猫撞死耗子,不足采信。

不过关于NLP过去20年两条路线的宗教式斗争,我和很多同时代人都是亲历者,这方面的每一句话都是有根据、负责任,经过深思熟虑的,有过惨痛的经历或胜利的喜悦。

虽然统计学界有很多对传统规则系统根深蒂固的偏见和经不起推敲但非常流行的蛮横结论(以后慢慢论,血泪账一笔一笔诉 :),但是机器学习的巨大成果和效益是有目共睹无所不在的:机器翻译,语音识别/合成,搜索排序,垃圾过滤,文档分类,自动文摘,知识习得,you name it

摘自【科普随笔:NLP的宗教战争?兼论深度学习】

看过几篇 NLP (Natural Language Processing) 领域代表人物的综述,往往充满了主流的傲慢与偏见,让人惊诧。这些一览众山小的大牛聪明绝顶,居然如此偏见蛮横,jump to conclusions,可见宗教式思维定势的危害之深,深入骨髓,对青年学子个更是贻害无穷。(主流掌门人中也有有识之士,以后再论。)因此想到立此存照一下,以后再一条一条细论。下列傲慢之偏见随处可见,流传甚广,为免纷扰,就不列出处了,明白人自然知道这绝不是杜撰和虚立的靶子。这些偏见似是而非,经不起推敲,却被很多人视为理所当然的真理。为每一条偏见找一个相应的 crappy 系统的案例并不难,但是从一些特定系统的缺陷推广到对整个规则系统的方法学上的批判,乃是偏见之为偏见 的要害所在。

【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈)。

【偏见二】规则系统的手工编制导致其移植性差,转换领域必须重启炉灶,而机器学习没有移植性问题,因为算法和系统保持不变,只要改变训练数据即可。

【偏见三】规则系统的手工编制注定其不能 scale up,无法胜任 real world application,只能做实验室里的玩具。

【偏见四】规则系统只能在极狭窄的领域成事,无法做跨领域的系统。

【偏见五】规则系统只能处理规范的语言(譬如说明书、天气预报、新闻等),无法应对 degraded text,如社会媒体、口语、方言、黑话、OCR 文档。

【偏见六】规则系统很脆弱,遇到没有预测的语言现象系统就会 break(什么叫 break,死机?),开发不了鲁棒(robust)产品。

【偏见七】由于真实世界的自然语言词汇量大,组合关系千变万化,语言学家无法编制规则系统涵盖这些词汇和语法知识来分析语言。

【偏见八】规则系统的结果没有置信度,鱼龙混杂。

【偏见九】规则系统的编制越来越庞杂,最终无法改进,只能报废。

【偏见十】规则系统是上个世纪的技术,早已淘汰(逻辑的结论似乎是:因此不可能做出优质系统)。

【偏见十一】从结果上看,机器学习总是胜过规则系统。

上述每一条都可以写一大篇或一个系列来详细论证其荒谬蛮横,描述学界主流中存在的傲慢与热昏。可是不用着急,血泪账今后一笔一笔诉 :)

可怕的不是偏见,偏见无处不在,是人就难免。真正可怕的是偏见的流行,而在NLP这个领域,偏见的流行到了让人瞠目结舌的程度。不假思索而认同接受这些偏见成了常态。

【相关篇什】

【科普随笔:NLP的宗教战争?兼论深度学习】

坚持四项基本原则,开发鲁棒性NLP系统

why hybrid? on machine learning vs. hand-coded rules in NLP

《立委随笔:语言自动分析的两个路子》

《朝华午拾:在美国写基金申请的酸甜苦辣》

《立委随笔:机器学习和自然语言处理》

【立委科普:从产业角度说说NLP这个行当】

王伟DL
不得不承认,看完这些偏见之后,我有点乱了。我同意“每一条都可以写一大篇”都可以引起大的讨论,对于是否偏,一时还难明。有些我已经不知何时“采纳”了,有些也不接受。---究竟是正是偏,也是引领方向的大问题。一方面应深入讨论,示明于众,纠偏于正时。另一方面,应采实践检验的标准以实证。

米拉宝鉴:确实应该展开讨论,不着急,慢慢来。所罗列的“偏见”有两类:一类是谬见,可以证明其荒谬,譬如说规则系统不能处理社会媒体,只能分析规范性语言。另一类就是“偏”见,盗亦有道,情有可原,虽然还是应该对其纠“正”。这类偏见主要源于不完全归纳,他们也许看到过或者尝试过规则系统某一个类型。 浅尝辄止,然后 jump to conclusion

【NLP主流最大的偏见,规则系统的手工性】

【科普随笔:NLP主流的傲慢与偏见】中的第一条是 :

【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈)。

NLP(Natural Language Processing)主流对规则系统和语言学家大小偏见积久成堆,这一条可以算是万偏之源。随便翻开计算语言学顶级会议的论文,无论讨论什么语言现象,为了论证机器学习某算法的优越,在对比批评其他学习算法的同时,规则系统大多是随时抓上来陪斗的攻击对象,而攻击的理由往往只有这么一句话,规则系统的手工性决定了 blah blah(“其不能 scale up”,“其效率低下”,“其不鲁棒”,等等),或者干脆不给具体理由,直接说“文献【1】【2】【3】尝试了这个问题的不同方面,但这些系统都是手工编制的”,一句话判处死刑,甚至不用讨论它们的效果和质量。手工性几乎成了规则系统的“原罪”,编制这些系统的人因此成为学术共同体背负原罪的二等公民。

手工编制(hand-crafted)怎么了?在日常消费品领域,这是道地的褒义词,是特别的嘉奖,是批量机械化生产和千篇一律的反动,是独特和匠心的代表,是高价格理直气壮的理由。怎么到了NLP领域,突然就成了带有原罪的贬义词了呢。这是因为在NLP领域,代表主流的精算师们由于他们在NLP某些任务上的非凡成功,使得他们居功自傲,把成功无限推广和夸大,给这个community 施行了集体催眠术,让人相信机器学习是万能的。换句话说,批判手工编制的劣根性,其隐含的前提是机器学习是万能的,有效的,首选的。而实际情况是,面对自然语言的复杂性,机器学习只是划过了语言学的冰山一角,远远没有到主流们自觉和不自觉吹嘘的如入无人之地的万能境界。催眠的结果是不独不少语言学家以及NLP相关利益方(stake holders,如投资人和用户)被他们洗脑了,连他们自己也逐渐相信了自己编制的神话。

真实世界中,NLP 是应用学科,最终结果体现在应用软件(applications)上,属于语言软件工程。作为一个产业,软件工程领域吸引了无数软件工程师,虽然他们自嘲为“码工”,社会共同体给予他们的尊重和待遇是很高的(Bill Gates 自封了一个 Chief Engineer,说明了这位软件大王对工匠大师的高度重视)。古有鲁班,现有码师(coding master)。这些码工谁不靠手工编制代码作为立足之本呢?没听说一位明星工程师因为编制代码的手工性质而被贬损。同是软件工程,为什么计算语言学家手工编制NLP代码与其他工程师手工编制软件代码遭遇如此不同的对待。难道NLP应用比其他应用简单?恰恰相反,自然语言的很多应用比起大多数应用(譬如图形软件、字处理软件等等)更加复杂和艰难。解释这种不同遭遇的唯一理由就是,作为大环境的软件领域没有NLP主流的小环境里面那么多的傲慢和偏见。软件领域的大牛们还没有狂妄到以为可以靠自动编程取代手工编程。他们在手工编程的基础建设(编程架构和开发环境)上下功夫,而不是把希望寄托在自动编程的万能上。也许在未来的某一天,一些简单的应用可以用代码自动化来实现,但是复杂任务的全自动化从目前来看是遥遥无期的。不管从什么标准来看,非浅层的自然语言分析和理解都是复杂任务的一种。因此,机器学习作为自动编程的一个体现是几乎不可能取代手工代码的。规则系统的NLP应用价值会长期存在。

自动是一个动听的词汇。如果一切人工智能都是自动学习的,前景该有多么美妙。机器学习因为与自动连接在一起,显得那么高高在上,让人仰视。它承载着人类对未来世界的幻想。这一切理应激励自动学习专家不断创新,而绝不该成为其傲慢和偏见的理由。

在下面具体论述所谓规则系统的知识瓶颈软肋之前,值得一提的是,所谓自动是指系统的开发,不要混淆为系统的应用。在应用层面,无论是机器学习出来的系统,还是手工编制的系统,都是全自动地服务用户的,这是软件应用的性质决定的。这虽然是显而易见的事实,可确实有人被误导,一听说手工编制,就引申为基于规则系统的应用也是手工的,或者半自动的。

手工编制NLP系统是不是规则系统的知识瓶颈?毋庸讳言,确实如此。这个瓶颈体现在系统开发的周期上。但是,这个瓶颈是几乎所有大型软件工程项目所共有的,是理所当然的资源costs,不独为 NLP “专美”。从这个意义上看,以知识瓶颈诟病规则系统是可笑的,除非可以证明对所有NLP项目,用机器学习开发系统比编制规则系统,周期短而且质量高(个别的项目可能是这样,但一般而言绝非如此,下面还要详谈)。大体说来,对于NLP的浅层应用(譬如中文切词,专名识别,等等),没有三个月到半年的开发,没有至少一位计算语言学家手工编制和调试规则和至少半个工程师的平台层面的支持,是出不来系统的。对于NLP的深层应用(如句法分析,舆情抽取等),没有至少一年的开发,涉及至少一位计算语言学家的手工编制规则,至少半个质量检测员的协助和半个工程师的平台支持,外加软件工程项目普遍具有的应用层面的用户接口开发以及把开发出来的NLP引擎deploy到大数据上去的 operations 的投入,也是出不来 real life 的软件产品的。当然需要多少开发资源在很大程度上决定于开发人员(包括作为知识工程师的计算语言学家)的经验和质量。譬如让立委来开发中文系统(或英文、法文系统),就比找年轻语言学家快得多,以一当十绝不是自夸。其实,即便是10个新手,也未见得能做出立委的系统来,因为自然语言里面所牵涉到问题的复杂度不是拼时间就可以完成的。

计算语言学家编制规则系统与软件工程师编写程序没有本质不同。不过是所用的语言、形式框架和开发平台(language,formalism & development platform)不同而已,系统设计和开发的测重点不同而已。这就好比现代的工程师用所谓高级语言 Java 或者 C,与30年前的工程师使用汇编语言的对比一样,本质是一样的编程,只是层次不同罢了。在为NLP特制的“高级”语言和平台上,计算语言学家可以不用为 memory allocation 等非语言学的工程细节所羁绊,一般也不用为代码的优化和效率而烦扰,他们的注意力更多地放在面对自然语言的种种复杂现象,怎样设计语言处理的架构和流程,怎样突破规则系统的框架与其他语言处理包括机器学习进行协调,怎样平衡语言条件的宽窄,怎样与QA(质量检测)协调确保系统开发的健康,怎样保证语言学家团队编制规则的操作规范以确保系统的可持续性(data driven,unit testing,regression testing,code review,maintenability,baselines,等等等等),怎样根据语言开发需求对于现有形式框架的限制提出扩展要求,以及怎样保证复杂系统的鲁棒性等等。一个领头的计算语言学家就是一个系统的架构师,系统的成败绝不仅仅在于语言规则的编制及其堆积,更多的决定于系统架构的合理性。不要把村干部不当干部,也不要把知识工程师(计算语言学家)不当工程师。很多人由于根深蒂固的偏见,把计算语言学家一律当作资料员,殊不知能够在NLP规则系统中统领项目的计算语言学家,绝不是只要知道某个语言的syntax这些皮毛就可以胜任的。明星工程师是软件企业的灵魂,NLP 规则系统的大规模成功也一样召唤语言工程大师。

关于知识瓶颈的偏见,必须在对比中评估。规则系统需要语言学家手工开发的资源投入,机器学习也同样需要资源的投入,不过是资源方式不同而已。真实的情况是这样的:自然语言处理需要语言学知识,把这些知识形式化是每个NLP系统的题中应有之义,机器学习绝不会自动免疫,无需知识的形式化。具体说,机器学习的知识瓶颈在于data,大量的大量的data。排除研究性强实用性弱的无监督学习(unsupervised learning),机器学习中可资开发系统的方法是有监督的学习(supervised learning)。有监督的学习能开发知识系统成为应用的前提是必须有大量的手工标注的数据,作为学习的源泉。机器学习的算法是自动的(算法的创新、调试和实现当然还是手工的,可这种手工被认为是最高级劳动,=),而语言学家的手工规则甚至系统架构则被认为是资料员的低端工作,损人与自夸,无出其右),但是大量的数据标注则是手工的(本来就有现成标注的不算,那是例外)。因此,机器学习同样面临知识瓶颈,不过是知识瓶颈的表现从需要少量的知识工程师变成需要大量的低端劳动者(懂得语言及其任务的大学生或中学生即可胜任)。马克思说金钱是一般等价物,知识瓶颈的问题于是转化为高级劳动低级劳动的开销和转换问题:雇佣一个知识工程师的代价大,还是雇佣10个大学生的代价大?虽然这个问题根据不同项目不同地区等因素答案会有不同,但所谓机器学习没有知识瓶颈的神话可以休矣。

另外,知识瓶颈的对比问题不仅仅是针对一个应用而言,而应该放在多应用的可移植性上来考察。我们知道绝大多数NLP应用的技术支持都源于从自然语言做特定的信息抽取。由于机器学习把信息抽取看成一个直接对应输入和输出的黑匣子,所以一旦改变信息抽取目标和应用方向,以前的人工标注就废弃了,作为知识瓶颈的标注工作必须完全重来。可是规则系统不同,它可以设计成一个规则层级体系,独立于领域和应用方向的语言学规则组件(parsers)以及在语言学之上的针对领域和应用的信息抽取规则子系统。结果是,在转移应用目标时候,底层的语言学组件基本保持不变,而只需要重新编写不同的信息抽取规则而已。实践证明,对于规则系统,真正的知识瓶颈在语言学组件的构建上,而信息抽取本身花费不多。这是因为前者需要应对自然语言变化多端的表达方式,把它逻辑化,而后者是建立在逻辑形式(logical form)上的规则,一条等价于底层规则的几百上千条。因此,从多应用的角度看,机器学习的知识成本最终会远远大于规则系统。

本文引用地址:http://blog.sciencenet.cn/blog-362400-701815.html

[5]王伟 2013-6-24 20:23
期待李老师的下一讲-驳偏之二。至于“计算语言学的领域一直在排挤语言学”,的确,不是有“统计自然语言处理的某几个百分点提高,是通过解雇了几个语言学家而提高的”吗 ,呵呵。我认为,机器处理自然语言并不是仅一个统计就能简单搞定的。语言学家和计算机专家配合不好,是有很多方面原因。举个我听到的例子,语言学工作者对计算机专家说:“这个情况机器怎么就不能学习了,机器应该可学习到的呀!”,计算机专家回答说:'机器现在还没这么智能,这么抽象的东西暂时还学不了”--计算机学家认为语言学家不懂计算机。 计算机专家对语言学家说:“不能给个好用的归纳全的知识库吗,为什么总是打补丁,没完没了,还总出笑话”,语言学家回答说:语言学还真不这么简单,这个还就真拿不出!" --语言学家认为计算机学家不懂语言学。
尽管如此,我认为,随着研究的深入,相互了解的加深,二者只有自然融合才能渐入佳境,而不可强求。只有到了对语言处理层次的高要求时,比如文本理解阶段,才会使语言学的比重逐渐加大,而对语言处理层次需求是人类发展的必然,谁也无法阻挡,所以语言学家不必为此时情景暗伤。就像早期的关键词检索,根本还用不上句法知识。而现在都在奔语义理解和自动问答,句法知识想回避都难。

删除 回复 [4]李斌 2013-6-23 20:08
晕了,我是说您的观点正确
博主回复(2013-6-23 20:33):晕了,我没看出来,:)

删除 回复 [3]王伟 2013-6-23 15:44
我同意AIMan 的“规则系统和机器学习的本质区别在于‘规则的生成机制’”,其实“规则系统”和“机器学习”这种分类也不是很合理,因为它们本质上都某种规则下运行的,只是当初学科起名的时候,没考虑到现今这样情景,就像计算机千年问题一样,只不过AI领域的人心中都能够清楚是怎么一回事,我也不知怎样能在分类上显式表明区别,暂且如是用吧。

AIMan抛出的三个问题,我觉得很值得引发讨论。
1.“我们是否需要知道规则?知道规则对系统效率有提升吗?”
对于规则系统,必须是显式表示,因为人类专家看不见,自然就不能去对那些规则们进行“拿捏”了。而对于机器学习而言,显不显式表示无所谓,只要能用起来就行。显式的那些东西,若是给人类参考,供修改的话那还是有必要;若是只是为了直接使用,就没必要显式。一般来说,机器学习出来的那些规则,与人类专家总结的规则的格式内容,差别很大。人类专家的结果尽量是高概括的,高覆盖率的。机器学习的那些则一般都是比较细碎的,具体性的,覆盖度是通过泛化实现的,这泛化的前提是数据足够可用的情况下适度泛化,在问题隐含的规律特别复杂而数据又偏少的情况下,泛化太强也加大了错误率,也没什么意义。
规则系统中规则是必须人类知道,不知道也无法进行下去。而机器学习中的规则,人类知道与不知道那些规则无所谓,甚至人也知道不起,可能量大又琐碎。
因此,我认为知不知道规则与系统效率是无关的。系统效率只与规则质量有关,一般来说,规则系统由于高概括,单从运行效率来讲,效率是高的,但是建造规则系统效率是低的。这也只是一般来说,因其也与运行算法有关,比如像专家系统那样的,不采用RETE算法的话,运行效率也并不高。

2.“case by case的专家模式和一招鲜吃遍天的数学家模式,那种应用效果更好?”
这个应该是取决于要解决问题的类型。如果有的问题,规则总是那么少量,或很少变化。专家能够全部总结出来。同时,机器也能从给定的数据集中全部学习到所有的规则,那么两个效果应该是一样的。如果规则还是那么少量,专家能总结很好,但是机器学习所需要的现有数据集很难覆盖全面,那么规则系统胜出。如果规则复杂,不断变化,数据量极其庞大,人类总结很难做到高屋建瓴,常感“数据海量”之叹,而此问题的机器学习的数据轻易获取,高性能机器又可以很快抽取规则的话,且要比人类已有总结的那些规则覆盖量大的话,机器学习自然胜出。
但是,落到自然语言处理这样的问题上,规则系统坦诚来,说不能说总结得很好,不然就没有机器学习什么事了。而机器学习,在现有大规模高质量的标注集上是否能有效覆盖也难说,因此也就有了挡箭牌,一旦机器学习的结果不理想,都可以赖到标注数据集不充分上来。其实,二者都逃脱不了手工的问题(非监督学习的水平现还差太多,手工是必然的)。这也成了“语言专家总结语言规律 VS 标注人标注语料”问题中在工作量、工作难度、最终效果、后期维护、领域适应等多维变量中求最优的问题。当然,不可回避的是,机器学习算法和模型质量是否有效也是一个制约因素。
就目前看来,哪种模式更好,还难有确定结论,同时也分是在NLP的什么分支上。本质上彼此都有各自的软肋。若二者抱团发展也许更好,不过首先要解决好性格不合的问题。
另外,说一点,像李老师这样的既能建高楼(架构),又能给空房引来住户(语言知识),同时又有协调住户矛盾(知识冲突)的经验的“资深建筑师”确实不多,也确有独门绝技。
但这不具备大规模生产性,能否发展成容易传授性的,好继承下来的,更多些“自动”,是个值得探讨的问题。

3.机器学习也许不完美,但是足够实用,可以让我们一劳永逸,既然人类可以有这样一套智能系统,机器为什么不能有?
若能达到真正实用的地步,甚至比人类规则系统还好的话,人类自然不傻,怎能不去用。关键是,机器学习的这种不完美一定是在某些方面逊于人类规则系统,所以规则系统才有了存在的价值。
至少目前看来还没有到达谁取代谁,也没看出谁依靠谁来,局部战役有些战绩并不说明整个战事的最终结果。彼此都需要改进,都需要进步,相融合发展又有何不可。
规则系统,面对问题当语言资源超过专门的语言学家总结的规模的上限时,下一步怎么走? 机器学习,面对的问题,对于复杂推理性问题的求解,比如文本的篇章理解,应该怎么下手?而不能总停留在识别处理这个水平上。
博主回复(2013-6-23 20:50):谢谢,您说的三点都很深入到位,我有同感。

至于语言学人才断层问题,我以前提过,这是NLP大环境造成的。
教授要吃饭,要养学生,学生将来也要有立足的饭碗,就必须要发论文,拿经费,就非走主流路线不可,哪怕是跟着别人后面赶。其结果就是语言学和语言学人才荒芜了。世界上还很少有这样的怪现象:号称计算语言学的领域一直在排挤语言学。

删除 回复 [2]李斌 2013-6-23 13:04
太对了,没有宾州树库,句法分析怎么能上90%
博主回复(2013-6-23 19:38):这是从何谈起?我们没用宾州树库,也做出了英语和汉语的高精度而且鲁棒的 parsers,不比任何宾州树库训练出来的差。

在句法分析这一块,机器学习吃亏太多了,因为他们除了只此一家的宾州森林,连个其他选项都没有。

删除 回复 [1]AIMan 2013-6-22 22:39
规则系统和机器学习的本质区别在于“规则的生成机制”,而不是“是否hand-crafted”,其实两者都需要hand-crafted的,不少机器学习算法还存在经验参数,且应用范围有限制。

不同点是,前者的规则是人工方式确定,对于不同的case可能需要不同的实现算法或规则,修改一个规则不影响其它规则的运行;后者以算法自动生成(识别)“规则”(分类器),也就是说后者是工作在规则的规则上,比前者多了一层抽象,大大减少了工作量,改一下算法,所有的规则都变了。也就是说规则方式的"switch...case"是“显式”的,而机器学习的"switch...case..."是“隐式”的黑盒。那么,我们是否需要知道规则?知道规则对系统效率有提升吗?

同理,在应用层面。规则系统强调的case by case。那么用规则系统做NLP就需要语言学家,做大数据就需要相关领域的销售专家,这增加了系统实施的难度。而机器学习,对于NLP也好,大数据也好,图像识别也好,需要的都是数学家,理想状态下是一个模型打天下,当然这是理想,现在远远做不到。那么,case by case的专家模式和一招鲜吃遍天的数学家模式,那种应用效果更好?

根本上讲,两者的差异源于他们的基本假设不同,规则系统假设我们人类可以穷尽世界的规则,将世界用一个符号系统完整的重构。而机器学习假设我们无法穷尽规则,但是我们可以做一套智能系统,它可以识别规则,而且具有一定的泛化能力,它也许不完美,但是足够实用,可以让我们一劳永逸,既然人类可以有这样一套智能系统,机器为什么不能有?
博主回复(2013-6-23 19:52):总体说的不错。不过,生成机制也算是老生常谈了。机器学习把语义抽取过程当作黑匣子,规则系统试图走进去一步一步推理。可以溯源到经验主义和理性主义的世界观上去。

最后一段疑似隐含了偏见。规则系统从来没有假设人类可以穷尽世界。最多是可以穷尽或者逼近一个子领域。根本不需要一个符号系统完整地重构世界才可以构建有用的规则系统。最后说到“一劳永逸”的理想,已经进入AI科幻世界了,不足论也。

【立委科普:NLP 白皮书】

Quote:
NLP is not magic, but the results you can get sometimes seem almost magical.
(“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”)
引自:http://www.confidencenow.com/nlp-seduction.htm

【立委按】作为老兵,常常需要做行业概览(NLP Overview)之类的演讲,有时作为新人训练计划(orientation)的一部分,也有时是应朋友之邀去别处讲,为行业间交流的座谈形式。NLP 是做了一辈子,琢磨了一辈子的事儿,照林彪元帅的话说就是,已经“融化在血液里,落实在行动上”了。所以我从来就当是唠家常,走马谈花。无酒话桑麻,兴之所至,有时也穿插一些掌故,说过就完,烟消云散。可今年的一次演讲,有有心人细心记录在案(caught on tape),整理成了文档。虽然这次演讲枯燥一些(去年一次出外座谈,就精彩多了,现场气氛热络,笑声不断),也是赶上哪趟算哪趟,分享如下,未几对新人有益。删去敏感内容,这篇英语“科普”大体相当于我领导研发的系统的白皮书(white paper)吧。顺便预告一下,手头正在撰写姐妹篇【立委科普:NLP 联络图】,力求分层次对NLP及其相关领域做一个鸟瞰式全面介绍,敬请留意。

Overview of Natural Language Processing (NLP)

【This document provides a text version of Dr. Wei Li's overview of NLP, presented on August 8, 2012.】

At a high level, our NLP core engine reads sentences and extracts insights to support our products. The link between the products and the core engine is the storage system. Today’s topic is on the workings of the NLP core engine.

System Overview

Our NLP core engine is a two-component system.

The first component is a parser, with the dependency tree structure as output, representing the system’s understanding of each sentence. This component outputs a system-internal, linguistic representation, much like diagramming taught in grammar school. This part of the system takes a sentence and “draws a tree of it.” The system parses language in a number of passes (modules), starting from a shallow level and moving on to a deep level.

The second component is an extractor, sitting on top of the parser and outputs a table (or frame) that directly meets the needs of products. This is where extraction rules, based on sub-tree matching, work, including our sentiment extraction component for social media customer insights.

Dependency Tree Structure and Frames

An insight extractor of our system is defined by frames. A frame is a table or template that defines the name of each column (often called event roles) for the target information (or insights). The purpose of the extraction component is to fill in the blanks of the frame and use such extracted information to support a product.

Each product is supported by different insight types, which are defined in the frame. To build a frame, Product Management determines what customers need and what output they want from processing sentences and uses the output information to formulate frame definitions. The NLP team takes the product-side requirements, does a feasibility study, and starts the system development, including rules (in a formalism equivalent to an extended version of cascaded finite state mechanism), lexicons and procedures (including machine learning for classification/clustering), based on a development corpus, to move the project forward. The frames for objective events define things like who did what when and where etc with a specific domain or use scenario in mind. The frames for sentiments or subjective evaluations contain information first to determine whether a comment is positive or negative (or neutral, in a process called sentiment classification). It also defines additional, more detailed columns on who made the comment on what to what degree (passion intensity) in which aspects (details) and why. It distinguishes an insight that is objective (for example, “cost-effective” or “expensive”) from subjective insight (for example, "terrific", “ugly” or “awful”).

The type of insight extraction is based on the first component of linguistic processing (parsing). More specifically, the insight extraction is realized by sub-tree matching rule in extraction grammars. In this example:

Apple launched iPhone 4s last month

The parser first decodes the linguistic tree structure, determining that the logical subject (actor) is “Apple,” the action is “launch,” the logical object (undergoer) is “iPhone 4s,” and “last month” is an adverbial. The system extracts these types of phrases to fill in the linguistic tree structure as follows.

Based on the above linguistic analysis, the second component extracts a product launch event as shown below:

How Systems Answer Questions

We can also look at our system from the perspective of how it addresses users information needs, in particular, how it answers questions in our mind. There are two major systems for getting feedback to satisfy users’ information needs.

Traditional systems, like search engines. A user enters a query into a search engine and gets documents or URLs related to query keywords. This system satisfies some needs, but there is too much information and what you want to know might be buried deep in the data.

NLP-based systems, which can answer users’ questions. All our products can be regarded as special types of “question-answering systems.” The system reads everything, sentence by sentence. If it has a target hit, it can pull out answers from the index to the specified types of questions.

Technology for answering factoid questions, such as when (time), where (location), who (person) is fairly mature. The when-question, for example, is easy to answer because time is almost always expressed in standard formats. The most challenging questions to answer are “how” and “why.” There is consensus in the question answering community on this. To answer “how” questions, you might need a recipe, a procedure, or a long list of drug names. To answer “why,” the system needs to find motivation behind sentiment or motive behind behavior.

Our products are high-end systems that are actually designed to answer “how” and “why” questions in addition to sentiments. For example, if you enter “heart attack” into our system, you get a full solution package organized into sections that includes a list of procedures, a list of drugs, a list of operations, the names of doctors and professionals, etc. Our consumer insight product classify sentiments, otherwise known as “thumbs-up” and “thumbs-down” classification, just like what our competitors do. But we do much more fined-grained and much deeper, and still scale up. Not only can it tell you what percentage, what ratio, how intensively people like or dislike a product, it also provides answers for why people like or dislike a product or a feature of a product. This is important: knowing how popular a brand is only gives a global view of customer sentiments, but such coursed-grained sentiments by themselves are not insightful: the actionable insights in the sentiment world need to answer why questions. Why do customers like or dislike a product feature? Systems that can answer such questions provide invaluable actionable insights to businesses. For example, it is much more insightful to know that consumers love the online speed of iPhone 4s but are very annoyed by the lack of support to flash. This is an actionable insight, one that a company could use to redirect resources to address issues or drive a product’s development. Extraction of such insights is enabled by our deep NLP, as a competitive advantage to traditional classification and clustering algorithms, practiced by almost all the competitions who claim to do sentiments.

Q&A

Q: How do you handle sarcasm?

A: Sarcasm is tough. It is a challenge to all the systems, us included. We have made some tangible progress and implemented some patterns of sarcasm in our system. But overall, it is a really difficult phenomenon of natural language. So far in the community, there is only limited research in the lab, far from being practical. People might say “no” when they mean “yes,” using a “zig-zag” way to express their emotions. It’s difficult enough for humans to understand these things and much more difficult for a machine.

The good news is that sarcasm is not that common overall, assuming that we are considering a large amount of real-life data. There are benchmarks in literature about what percentage of sarcastic data occurs in real-life language corpora. Fortunately, only a small fraction of the data might be related to sarcasm, often not making a statistical impact on data quality, whether or not it is captured.

Not all types of sarcasm are intractable. our products can capture common patterns of sarcasm fairly well. Our first target is sarcasm with fairly clear linguistic patterns, such as when people combine “thank you” (a positive emotion) with a negative behavior: “Thank you for hurting my feelings.” Our system recognizes and captures this contradictory pattern as sarcasm. “Thank you,” in this context, would not be presented as a positive insight.

Q: Do you take things only in context (within a sentence, phrase, or word) or consider a larger context?

A: Do we do anything beyond the sentence boundary to make our insights more coherent to users? Yes, to some extent, and more work is in progress. The index contains all local insights, broken down into “local” pieces. If we don’t put data into the index piece by piece, users can’t “drill down.” Drill-down is a necessary feature in products so the users can verify the insight sources (where exactly the insight is extracted from) and may choose to dive into a particular source.

After our application retrieves data from the index, it performs a “massaging” phase that occurs between retrieving the data storage and displaying it. This massaging phase introduces context beyond sentence and document boundaries. For example, “acronym association” identifies all of the numerous names used to refer to an entity (such as “IBM” versus “International Business Machine Corp”). This context-based acronym association capability is used as an anchoring point for merging the related insights. We have also developed co-reference capability to associate, for example, the pronoun “it” with the entity (such as iPhone) it refers to.
This phase also includes merging of phrases from local insights. For example, “cost-ineffective” is a synonym of “expensive.” The app merges these local insights before presenting them to the users.

Concluding Remarks on Language Technology and its Applications

NLP has been confined to labs for decades since beginning machine translation research in the early 1950s and up until the last decade. Until only a few years ago, NLP in applications had experienced only limited success. While it is moving very fast, NLP has not yet reached its prime time yet in the industry.

However, this technology is maturing and starting to show clear signs of serving as an enabling technology that can revolutionize how humans access information. We are already beyond the point of having to prove its value, the proof-of-concept stage. It just works, and we want to make it work better and more effectively. In the IT sector, more and more applications using NLP are expected to go live, ranging from social media, big data processing to intelligent assistants (e.g., Siri-like features) in mobile platforms. We are in a an exciting race towards making the language technology work in large-scale, real-life systems.

【相关篇什】
【立委科普:从产业角度说说NLP这个行当】
【立委科普:NLP 联络图】(coming soon)

本文引用地址:http://blog.sciencenet.cn/blog-362400-625350.html

NLP 是一个力气活:再论成语不是问题

NLP是一个力气活,100% agree.
日期: 01/04/2012 15:14:51

有朋友问:
Quote
俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。

从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要求系统理解日常用语,同时也理解专业文献,自然是很大,因为每个子领域都有很多术语(术语是成语的一种)。但是应用系统并不是百科全书,即便有能力建一个大而全的海量成语库,也没有必要,其运行和维护的成本超过了应用时带来的 marginal benefits,譬如,在我们的客户情报挖掘应用中,就不需要一个巨大的医疗术语库,尽管我们实际上已经有了这个库。

日常使用的成语是多少呢?往多说,10万条该够了吧。人脑如果不借助于临时查字典,学富五车的人也不过记得住10万成语到顶了吧。10万条对于现在的系统算什么。系统一启动就全load进内存随时待命了。
Quote
立委能不能给俺们简单科普一下,你们NLP产业到底发展到哪一步了。你的技术优势是什么?今后的发展方向又如何?

这个要简单说不太容易。让我试试吧:我们的技术优势就是探索出来一条利用深度分析而抽取任何文本信息(无论主观评价,还是客观事实)的高精度、细颗粒度的方法,而业界所流行的是浅度分析 and/or 机器学习,精度和颗粒度均低一个档次,质量完全不成比例,尽管后者的覆盖面会广一些。深度分析不是我们独有的,很多实验室都有;但是把深度分析应用到大规模真实语料能做出产品来,竞争者鲜见,原因大概是门槛太高了点儿。研究家们常常不习惯这种讲求平衡艺术(balancing art)而且需要极大耐力和应变灵活性的力气活,他们所擅长的是把一个思路推向极致,试图在算法或者理论上寻求突破或不同,这也有利于他们耐以生存发展的论文发表。多数习惯于短平快出成果的理工背景的机器学习家,往往对语言的混乱度估计不足,面对silent majority 的个性现象不甚耐烦(sparse data 是他们的死敌,在语言现象中格外明显)。当然,这也不是火箭技术,总会有人赶上的,但这里有个时间差。龟兔赛跑,并非每个兔子都爱睡懒觉。时间差算是一个很大的 competitive advantage.

今后的发展方向,我只能凭感觉说了。从科学角度,弱监督的机器学习(weakly supervised learning)如果有理论和方法上的突破,可能给语言技术的应用带来崭新的局面。从实践上看,更有迹可寻的方向是建立一个机器学习和人工干预的集成交互的语言技术开发环境和平台,使得语言技术开发较少依赖于一个人的经验和平衡术,较多地决定于数据的制导。形象点儿说就是,要把中国餐馆式依赖大厨独门技术的作业方式,改变成麦当劳式(其实更高质量并且有QA保证的 In-n-Out 更加合适)的流水作业,用以保证技术开发的基本质量。

本文引用地址:http://blog.sciencenet.cn/blog-362400-525929.html

【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

引用老友:
受教了。谢谢立委。
我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧?

这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是问题。

泛泛而言,一切歧义(词汇的,也包括结构歧义)都是自然语言的难点。形式语言(如计算机语言)好就好在基本不歧义。

但是,如果以信息抽取作为终极目标,绝大多数的一词多义也不是真正的问题,除非这种歧义影响了句子的结构分析(多数词汇歧义并不影响结构分析)。

原因在于信息抽取的时候,目标是明确的,建立的规则大多是词汇驱动的,而不是词义类别驱动的,因此歧义在抽取的时候有自动消失的条件。举例说明:英语 buy 至少有两个义项:

buy:
(1)购买:Microsoft bought Powerset for $100 million
(2)相信:I am not going to buy his argument

不做 WSD(Word Sense Disambiguation),也并不影响结构分析:

信息抽取也可以绕开 WSD,譬如,如果抽取的目标是公司购并(company acquisition)事件,下列由buy这几个词驱动的规则一样可以逮住上述(1)的事件,而并不需要对buy先行WSD再行事件抽取。因为事件抽取的条件自动排除了歧义,使得句子(2)不会被误抓为公司购并(argument 不是公司名)。

动词:buy|purchase|acquire
逻辑主语 (Actor):公司名 @1
逻辑宾语 (Undergoer):公司名 @2
==》
《公司并购事件》:
收购公司: @1
被收购公司:@2

总之,很多时候可以绕开WSD来开发系统。实际上,多数时候必须要绕着走。domain independent WSD 差不多是 NLP 难度最大的课题了,幸好可以绕开。神佑世人,感谢上帝!

@MyGod9:如果以机器翻译为目标呢?

如果是有近亲关系的语言之间做机器翻译,基本不需要 WSD,多数 ambiguity can carry over untouched. 即便是不同语系的语言之间做翻译,也要针对这个语言对来区分歧义,最好不要在不考虑目标语前先行WSD,因为后者大多吃力不讨好。

非统计类型的机器翻译系统的主流是转换式(transfer-based)机器翻译。词汇转换(包括针对目标语的词义消歧)与结构转换同步进行比较经济有利,利于维护。这就意味着机器翻译也与信息抽取有一定的共通之处:利用结构转换的条件同时消歧。

当然,机器翻译是NLP的一个特殊case,现在的主流都是统计模型了,因为 labeled data (双语语料库)只要有人类翻译活动就会作为副产品大量存在。这为机器学习创造了天然的好条件。统计模型支持的机器翻译,本质上也是转换式的。因此也不需要一个单独先行的WSD来支持。

WSD 可以作为 NLP 庙堂里的一尊菩萨供起来,让学者型研究家去烧香,实际系统开发者大可以敬鬼神而远之。:=)

说到这里,想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握了核武器可以无坚不摧:这些脱离实际的空谈乍听起来很有理由,很能迷惑人。

可我是业内“达人”(开玩笑啦),不吃这一套。我给出的鉴定基本是否定性的,断定为极高风险,不建议投资:他们的demo系统也许确实做出了比其他系统更好的WSD结果(存疑,我 interview 他们的时候发现他们其实并没有做真正的业内系统的 apple-to-apple 比较),但是即便如此,其 scale up、适应不同domain 并得到实用,是几乎不可能的。我的小组以前做过WSD研究,也发表过 state-of-the-art 的结果和论文,知道这不是好吃的果子,也知道这是研究性强实用性弱的题目。我投票枪毙了这项风险投资。(如果是国家科学基金,WSD 当然是可以立项的。)

需要说明一句:枪毙技术投资的事情是不能轻易做的。大家都是技术人,都指望凭着技术和资金去改造世界,成就一番大事业。本是同根生,相煎何太急?今天我枪毙了你的技术投资项目,明天我要创业,说动了资本家后,是绝对不希望也被同仁给毙了。人同此心。本来就是风险投资嘛,资本家早就做好了失败的心理准备,他们打10枪只要中了一次,就不算亏本买卖了。要允许技术带有风险,要允许技术人“忽悠”资本家(他们大多是只听得懂“忽悠”型话语方式的人,真的,行内的“规矩”了,想不忽悠都不成),作为技术人要鼓励资本家拥抱风险。尽管如此,那次枪毙 WSD 我觉得做得很坦然,这是箭在弦上不得不发。 工业上 WSD 在可见的将来完全没有前途是注定的事情,用脚后跟都可以明白的事情,没有丝毫袒护的空间。这根本不是什么高风险高回报的问题,这是零回报的case,俗话都说了,女怕嫁错郎,男怕入错行,专业怕选错方向。方向错了,再努力都没戏,对于工业开发,WSD 就是这么一个错得离谱的方向。

朋友说了,如果这真是一个错误的方向,你为什么也拿政府的grant,做这个方向的研究了?(话说回来,不拿这个钱做这个研究,我能有这个权威和自信如此斩钉截铁地判断其应用价值几近于零么?)这个问题要这么看:其一,科学研究烧钱与工业投资烧钱本质不同,后者是以纯经济回报作为存在的理由。其二,政府的grant是竞标夺来的,我不拿,别人也要拿,总之,这纳税人的钱也省不下来。如果有问题,那是立项的问题。

说到立项,再多说几句。我们拿到的WSD研究项目是海军的SBIR创新基金,其主旨不同于鼓励纯科学研究的NSF,而是推动应用型技术的发展。从应用意义上说,这个立项方向是有错的。立项虽然是政府项目经理人之间竞标最后胜出的,但项目经理人不是一线科技人,他们的 idea 也是受到技术人影响的结果。说白了,还是技术人的忽悠。这个项目不大,问题还不大,如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当然,那么大的投资砸下去,总会有一些零星的技术进步,也培养一批技术和研究人才,但作为整体目标,这个项目可以说是完败,头脑发热的日式大跃进)。美国呢,这样的热昏项目也有过。赫赫有名的 DARPA 是美国国家项目最成功的典范了,它推动了美国的高技术创新,催生了一些重要的技术产业,包括信息抽取(Information Extraction)和搜索技术,包括问答系统(Question Answering)。然而,即便如此成功的 program,有时也会有热昏如五代机这样的项目出台,完全错误的方向,不成比例的投资,天方夜谭的前景描述。笔者当年为找研究基金,研读某 DARPA 项目的描述,当时的震撼可以说是目瞪口呆,满篇热昏的胡话,感觉与中国的大跃进可以一比。惊异于科学界整体怎么会出现允许这样项目出来的环境,而且大家都争抢着分一杯羹,全然不顾其中的假大空。点到为止,就此打住。

本文引用地址:http://blog.sciencenet.cn/blog-362400-526304.html
分享到:收藏分享

说说科研立项中的大跃进

说到立项,再多说几句。...... 如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当然,那么大的投资砸下去,总会有一些零星的技术进步,也培养一批技术和研究人才,但作为整体目标,这个项目可以说是完败,头脑发热的日式大跃进)。

美国呢,这样的热昏项目也有过。赫赫有名的 DARPA 是美国国家项目最成功的典范了,它推动了美国的高技术创新,催生了一些重要的技术产业,包括信息抽取(Information Extraction)和搜索技术,包括问答系统(Question Answering)。然而,即便如此成功的 program,有时也会有热昏如五代机这样的项目出台,完全错误的方向,不成比例的投资,天方夜谭的前景描述。笔者当年为找研究基金,研读某 DARPA 项目的描述,当时的震撼可以说是目瞪口呆,满篇热昏的胡话。惊异于科学界整体怎么会出现允许这样项目出来的环境,而且大家都争抢着分一杯羹,全然不顾其中的假大空。点到为止,就此打住。(为什么点到为止呢?因为好像是主席说过的,10仗赢得9场就是一个好将军,不想坏了 DARPA 的名声。DARPA 对美国高技术的推动怎样评价都不为过。)

摘自:
《NLP 迷思之四:词汇消歧(WSD)是NLP应用的瓶颈》

本文引用地址:http://blog.sciencenet.cn/blog-362400-526592.html

当前推荐数:20 推荐人: 吴飞鹏 吕喆 刘艳红 李学宽 张志东 朱志敏 赵凤光 武夷山 许培扬 李永丹 杜敏彪 曹聪 徐耀 安海龙 杨正瓴 杨海涛 李传亮 者仁王 bridgeneer paulings
推荐到博客首页
发表评论 评论 (12 个评论)

删除 回复 [12]王晓明 2012-1-9 03:53
我觉得对于科研投入来讲,十战一胜已经是很好的成绩。。。科学有个探索的过程,你得允许人犯错。。。

删除 回复 [11]陈安 2012-1-8 20:00
云计算啥的,听起来也云里雾里的

删除 回复 [10]欧阳峰 2012-1-8 01:56
要说十战九胜的话,DARPA差得太远了。就我所知的项目中,十战一胜还差不多。不过DARPA在美国政府中还算成功的典型呢。现在能源部也搞了个类似的组织,听说别的部也在效仿。 
博主回复(2012-1-8 18:18):我对DARPA全貌并不了解,比喻失当。其实想说的是两点:其一,DARPA 对于美国信息产业的技术创新推动甚大,促成美国在世界信息产业领导者的地位,我们都是见证者和受益者;其二,即便 DARPA 也有荒诞无经的大跃进项目出台,我正好撞到一次,极为震撼。我觉得,DARPA 的优秀项目(你说的10战1胜的项目)之外,其他项目平庸、无大成果或有之,但是大跃进似的假大空项目应该是很少数的。

删除 回复 [9]southtech 2012-1-7 19:59
DARPA: Defense Advanced Research Projects Agency

删除 回复 [8]杨正瓴 2012-1-7 19:20
DARPA 项目,是什么?
能科普一下吗?

删除 回复 [7]徐耀 2012-1-7 17:26
本人前不久写了个“大项目的投入产出如何?”,可惜没有引起足够关注。

删除 回复 [6]relaxation 2012-1-7 12:52
"跨越式......"的本质就是跃进,可是有不少阶段或过程是跨不过去的。

删除 回复 [5]许培扬 2012-1-7 11:42
癌症研究、艾滋病疫苗研究也有过大跃进。

删除 回复 [4]方唯硕 2012-1-7 09:15
"举个国内的例子呗?"--居心不良,不想让博主在中国混了?

删除 回复 [3]吕喆 2012-1-7 09:02
俺这两天正在写一篇关于“大跃进”的博文。

删除 回复 [2]吕喆 2012-1-7 09:00
看标题还以为是mirror呢。

删除 回复 [1]吴国清 2012-1-7 08:48
举个国内的例子呗?

女怕嫁错郎,男怕入错行

【女怕嫁错郎,男怕入错行,专业怕选错方向】

想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD (Word Sense Disambiguation)有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握了核武器可以无坚不摧:这些脱离实际的空谈乍听起来很有理由,很能迷惑人。

可我是业内“达人”(开玩笑啦),不吃这一套。我给出的鉴定基本是否定性的,断定为极高风险,不建议投资:他们的demo系统也许确实做出了比其他系统更好的WSD结果(存疑,我 interview 他们的时候发现他们其实并没有做真正的业内系统的 apple-to-apple 比较),但是即便如此,其 scale up、适应不同domain 并得到实用,是几乎不可能的。我的小组以前做过WSD研究,也发表过 state-of-the-art 的结果和论文,知道这不是好吃的果子,也知道这是研究性强实用性弱的题目。我投票枪毙了这项风险投资。(如果是国家科学基金,WSD 当然是可以立项的。)

需要说明一句:枪毙技术投资的事情是不能轻易做的。大家都是技术人,都指望凭着技术和资金去改造世界,成就一番事业。本是同根生,相煎何太急?今天我枪毙了他的技术投资项目,明天我要创业,说动了资本家后,是绝对不希望也被同仁给毙了。人同此心。本来就是风险投资嘛,资本家早就做好了失败的心理准备,他们打10枪只要中了一次,就不算亏本买卖了。要允许技术带有风险,要允许技术人“忽悠”资本家(他们大多是只听得懂“忽悠”型话语方式的人,真的,行内的“规矩”了,想不忽悠都不成),作为技术人要鼓励资本家拥抱风险。尽管如此,那次枪毙 WSD 我觉得做得很坦然,这是箭在弦上不得不发。 工业上 WSD 在可见的将来完全没有前途是注定的事情,用脚后跟都可以明白的事情,没有丝毫袒护的空间。这根本不是什么高风险高回报的问题,这是零回报的case,俗话都说了,女怕嫁错郎,男怕入错行,专业怕选错方向。方向错了,再努力都没戏,对于工业开发,WSD 就是这么一个错得离谱的方向。

朋友说了,如果这真是一个错误的方向,你为什么也拿政府的grant,做这个方向的研究了?(话说回来,不拿这个钱做这个研究,我能有这个权威和自信如此斩钉截铁地判断其应用价值几近于零么?)这个问题要这么看:其一,科学研究烧钱与工业投资烧钱本质不同,后者是以纯经济回报作为存在的理由。其二,政府的grant是竞标夺来的,我不拿,别人也要拿,总之,这纳税人的钱也省不下来。如果有问题,那是立项的问题。

摘自:
《NLP 迷思之四:词汇消歧(WSD)是NLP应用的瓶颈》

相关篇什:
提上来:说说科研立项中的大跃进

本文引用地址:http://blog.sciencenet.cn/blog-362400-526701.html

2011 信息产业的两大关键词:社交媒体和云计算

我们现在正处在一个难得的历史契机。

去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。
社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒只能紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

去年年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报包括社会媒体的英国公司Autonomy(12billion)。最后,接近年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司Netbase建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的Coremetrics Social和Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

可以预见,在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前还是空白。然而中文网络信息的增长速度却是扶摇直上,单新浪微博用户去年中就突破两亿,社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

回顾一下互联网技术公司的里程碑吧:
雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出社交网络(Facebook social),目前正紧锣密鼓筹备上市(市值估算是500 个亿以上,远远超过当年谷歌上市的170亿的价码)。
下一个里程碑是什么?
Big data intelligence
很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。
是有志之士摩拳擦掌弄潮儿的时机了。时不我待,机不再来,此之谓也!

http://blog.sciencenet.cn/blog-362400-533366.html

立委统计发现,人是几乎无可救药的情绪性动物

立委跨语言统计发现,人是几乎无可救药的情绪性动物
作者: 立委 (*)
日期: 07/27/2012 12:58:29

 

最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要多出一倍以上,尽管情绪性词汇总量只是客观性描述词汇总量的一半不到。

以上数据来自社会媒体的跨语言自动调查,语言的差异并不太大。虽然是初步结果,但调查量大(每个语言测试了约三十万语句),应该还是大体反映了语言(进而 human nature)的一个侧面。

Just some initial statistics found in the ball park from our experimentation of using default rules across languages: although the subjective quality default rule is only trigged by good/love/happy (or bad/hate/annoyed) emotional words which are a smaller subset than objective quality trigger words (cheap/expensive, high/low resolution, long/short battery-life etc.), the sentences captured by the subjective default rule doubles the sentences from applying the objective default rule.  This shows, perhaps, that human beings are very emotional creatures, so emotional that they judge twice as often as they provide simple objective evidence to justify their judgments.

http://blog.sciencenet.cn/blog-362400-596765.html

国人爱说反话:夸奖的背后藏着嘲讽

日期: 09/07/2012 15:42:32

大陆政客属于敏感词,这里不表。以台湾政客为例,譬如说陈水扁是“中国最清廉的总统”,就明显是反话。
It is interesting to find that many positive comments about A Bian are sarcastic. In this test, the positive comments (likes) of Ma Yingjiu seem to be indeed positive.

BUT 下面这段文字骂马英九,可是却以赞美的假言。

机器处理起来,很烦人。

define a topic for馬英九, most negatives are correct, but positives and neutrals are bad. Here are some sample sentences:

• 馬總統干的好! 明天油價95一次漲3.1元,5月漲電費,那6月就改換漲水費吧~最好是行、衣、住、行全來給他大漲,這樣他的荷包才能賺的飽飽的,趁這四年好好大賺一筆,四年做滿後就能安心的退休去了~

• 不好意思我家連張機票錢都買不起,請問哪個國家接受偷渡過去打工的啊?? 馬總統介紹一下好咩? 還參加救國團?

• 喜歡聼好話是人性,不是馬英九特別,問題出在奉承拍馬的人,而這種人會越來越多,官位越來越大,馬英九用人和作風要負責任。

• 廢物 ! 一次漲足又變成漲三次 ? 徵證所稅又變成三前提 ? 馬英九這麼喜歡當小"三"是怎樣 ? 政策到底搞定了嗎? 沒搞定就到處亂放話, 就是最標準的隨地便溺污染國家, 也是廢物政府的最大特徵

• 馬英九是該好好的從H5N2 美牛瘦肉精 都更案法條到現在的油電雙漲 解釋一番 最好是在就職言說時,公開對全國人民說清楚

• 一點都不覺得王建民救了馬英九一命。 馬英九又沒有任何危險,他一個月後才要開始第二個四年,想到這裡他應該又爽到做起伏地挺身來了。

• 那馬英九選前應該講清楚啊 選後汽油每公升漲30元也ok啊.. 重點是選前都凍漲 選後拼命漲...

• 馬英九幹得好 漲吧 反正台灣人就是奴才命啦 沒路用的卡小 才在按回報封鎖別人

• 她馬的愛台灣的馬英九 原來是這樣愛台灣喔 國營企業一直提高薪水 卻在哭夭虧錢 真是的送你一個字 按

• 看到臉書上部份人的留言,真的覺得,嗯,原來真的有人相信馬英九是很有能力,只是有人在扯後腿之類的,喔幹,我好想在他面前大吼「你是哪隻眼睛看到的啊?」

• RT @4F [ 想說一直忘記說 ] 馬英九說,美牛通過後,國人不想吃,可以不吃,不必買,不會有事。 那麻煩一下,大麻也請來開放進口一下謝謝

• 馬總統用了一些蛋頭學者(博士) 蛋頭=豬頭. 因為沒事找事且弄到天怒人怨,怨聲載道!

• 呵,戈巴契夫頭髮最多,海珊最愛和平,賓拉登不愛打仗,陳水扁最清廉,馬英九最有GUTS...

• @octw 若說馬英九是有勇氣遠見的改革者,那真是天大的笑話。 1992年一群人台北火車站前靜坐五天,要求總統直選。 當時的總統,憑藉這股力道直接改成總統直選,而當時的法務部長,反對總統直選,要求維持現狀由國大選出。 那屆總統是李登輝,任法務部長是馬英九。 (via @aoi)

• 王聖人:要馬英九『對的事』就勇敢做,不管別人罵! 台灣人:認同,『目前馬英九最對的事就是下台』。

马英九和陈水扁在社会媒体上的高频情绪性词的词频分析展示了二者截然不同的民间形象:

http://blog.sciencenet.cn/blog-362400-610554.html