【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

引用老友:
受教了。谢谢立委。
我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧?

这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是问题。

泛泛而言,一切歧义(词汇的,也包括结构歧义)都是自然语言的难点。形式语言(如计算机语言)好就好在基本不歧义。

但是,如果以信息抽取作为终极目标,绝大多数的一词多义也不是真正的问题,除非这种歧义影响了句子的结构分析(多数词汇歧义并不影响结构分析)。

原因在于信息抽取的时候,目标是明确的,建立的规则大多是词汇驱动的,而不是词义类别驱动的,因此歧义在抽取的时候有自动消失的条件。举例说明:英语 buy 至少有两个义项:

buy:
(1)购买:Microsoft bought Powerset for $100 million
(2)相信:I am not going to buy his argument

不做 WSD(Word Sense Disambiguation),也并不影响结构分析:

信息抽取也可以绕开 WSD,譬如,如果抽取的目标是公司购并(company acquisition)事件,下列由buy这几个词驱动的规则一样可以逮住上述(1)的事件,而并不需要对buy先行WSD再行事件抽取。因为事件抽取的条件自动排除了歧义,使得句子(2)不会被误抓为公司购并(argument 不是公司名)。

动词:buy|purchase|acquire
逻辑主语 (Actor):公司名 @1
逻辑宾语 (Undergoer):公司名 @2
==》
《公司并购事件》:
收购公司: @1
被收购公司:@2

总之,很多时候可以绕开WSD来开发系统。实际上,多数时候必须要绕着走。domain independent WSD 差不多是 NLP 难度最大的课题了,幸好可以绕开。神佑世人,感谢上帝!

@MyGod9:如果以机器翻译为目标呢?

如果是有近亲关系的语言之间做机器翻译,基本不需要 WSD,多数 ambiguity can carry over untouched. 即便是不同语系的语言之间做翻译,也要针对这个语言对来区分歧义,最好不要在不考虑目标语前先行WSD,因为后者大多吃力不讨好。

非统计类型的机器翻译系统的主流是转换式(transfer-based)机器翻译。词汇转换(包括针对目标语的词义消歧)与结构转换同步进行比较经济有利,利于维护。这就意味着机器翻译也与信息抽取有一定的共通之处:利用结构转换的条件同时消歧。

当然,机器翻译是NLP的一个特殊case,现在的主流都是统计模型了,因为 labeled data (双语语料库)只要有人类翻译活动就会作为副产品大量存在。这为机器学习创造了天然的好条件。统计模型支持的机器翻译,本质上也是转换式的。因此也不需要一个单独先行的WSD来支持。

WSD 可以作为 NLP 庙堂里的一尊菩萨供起来,让学者型研究家去烧香,实际系统开发者大可以敬鬼神而远之。:=)

说到这里,想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握了核武器可以无坚不摧:这些脱离实际的空谈乍听起来很有理由,很能迷惑人。

可我是业内“达人”(开玩笑啦),不吃这一套。我给出的鉴定基本是否定性的,断定为极高风险,不建议投资:他们的demo系统也许确实做出了比其他系统更好的WSD结果(存疑,我 interview 他们的时候发现他们其实并没有做真正的业内系统的 apple-to-apple 比较),但是即便如此,其 scale up、适应不同domain 并得到实用,是几乎不可能的。我的小组以前做过WSD研究,也发表过 state-of-the-art 的结果和论文,知道这不是好吃的果子,也知道这是研究性强实用性弱的题目。我投票枪毙了这项风险投资。(如果是国家科学基金,WSD 当然是可以立项的。)

需要说明一句:枪毙技术投资的事情是不能轻易做的。大家都是技术人,都指望凭着技术和资金去改造世界,成就一番大事业。本是同根生,相煎何太急?今天我枪毙了你的技术投资项目,明天我要创业,说动了资本家后,是绝对不希望也被同仁给毙了。人同此心。本来就是风险投资嘛,资本家早就做好了失败的心理准备,他们打10枪只要中了一次,就不算亏本买卖了。要允许技术带有风险,要允许技术人“忽悠”资本家(他们大多是只听得懂“忽悠”型话语方式的人,真的,行内的“规矩”了,想不忽悠都不成),作为技术人要鼓励资本家拥抱风险。尽管如此,那次枪毙 WSD 我觉得做得很坦然,这是箭在弦上不得不发。 工业上 WSD 在可见的将来完全没有前途是注定的事情,用脚后跟都可以明白的事情,没有丝毫袒护的空间。这根本不是什么高风险高回报的问题,这是零回报的case,俗话都说了,女怕嫁错郎,男怕入错行,专业怕选错方向。方向错了,再努力都没戏,对于工业开发,WSD 就是这么一个错得离谱的方向。

朋友说了,如果这真是一个错误的方向,你为什么也拿政府的grant,做这个方向的研究了?(话说回来,不拿这个钱做这个研究,我能有这个权威和自信如此斩钉截铁地判断其应用价值几近于零么?)这个问题要这么看:其一,科学研究烧钱与工业投资烧钱本质不同,后者是以纯经济回报作为存在的理由。其二,政府的grant是竞标夺来的,我不拿,别人也要拿,总之,这纳税人的钱也省不下来。如果有问题,那是立项的问题。

说到立项,再多说几句。我们拿到的WSD研究项目是海军的SBIR创新基金,其主旨不同于鼓励纯科学研究的NSF,而是推动应用型技术的发展。从应用意义上说,这个立项方向是有错的。立项虽然是政府项目经理人之间竞标最后胜出的,但项目经理人不是一线科技人,他们的 idea 也是受到技术人影响的结果。说白了,还是技术人的忽悠。这个项目不大,问题还不大,如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当然,那么大的投资砸下去,总会有一些零星的技术进步,也培养一批技术和研究人才,但作为整体目标,这个项目可以说是完败,头脑发热的日式大跃进)。美国呢,这样的热昏项目也有过。赫赫有名的 DARPA 是美国国家项目最成功的典范了,它推动了美国的高技术创新,催生了一些重要的技术产业,包括信息抽取(Information Extraction)和搜索技术,包括问答系统(Question Answering)。然而,即便如此成功的 program,有时也会有热昏如五代机这样的项目出台,完全错误的方向,不成比例的投资,天方夜谭的前景描述。笔者当年为找研究基金,研读某 DARPA 项目的描述,当时的震撼可以说是目瞪口呆,满篇热昏的胡话,感觉与中国的大跃进可以一比。惊异于科学界整体怎么会出现允许这样项目出来的环境,而且大家都争抢着分一杯羹,全然不顾其中的假大空。点到为止,就此打住。

本文引用地址:http://blog.sciencenet.cn/blog-362400-526304.html
分享到:收藏分享

此条目发表在自然语言处理分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注