立委科普：问答系统的前生今世

作者52nlp

4 月 24, 2011 #IBM, #李维, #自动问答, #自然语言处理, #问答系统

李维老师的文章看起来就是过瘾，这篇文章也是刚刚在科学网上看到的，还有下一篇，感兴趣的读者可以继续关注。前段时间IBM超级计算机沃森（Watson）刚刚出了一把风头，也让关注自然语言处理的读者更关注起自动问答系统了，李维老师的这篇博文无疑让我们对于问答系统的前世今生又有了一次深刻的了解，所以厚着脸皮，以下继续全文转载自李维老师的博文：立委科普：问答系统的前生今世。

上周信笔涂鸦写了个不伦不类的科普（【立委科普：从产业角度说说NLP这个行当】），写完自我感觉尚可，于是毛遂自荐要求加精：“自顶一哈：不用谦虚，这个应该加精。也不枉我费了大半天的时辰。” 本来是玩笑话，没成想科网的编辑MM在两小时内就真地加精上首页了。前几周还在抱怨，怕被编辑打入另册，正琢磨献花还是金币以求青睐，没想到这么快就峰回路转，春暖花开。响鼓不用重敲，原来还是要发奋码字才行，花言巧语的不行。得，一鼓作气，再码两篇。

言归正传，第一篇先介绍一下问答系统（Question Answering system）的来龙去脉。第二篇专事讲解问答系统中的三大难题 What，How 与 Why。

一前生

传统的问答系统是人工智能（AI: Artificial Intelligence）领域的一个应用，通常局限于一个非常狭窄专门的领域，基本上是由人工编制的知识库加上一个自然语言接口而成。由于领域狭窄，词汇总量很有限，其语言和语用的歧义问题可以得到有效的控制。问题是可以预测的，甚至是封闭的集合，合成相应的答案自然有律可循。著名的项目有上个世纪60 年代研制的LUNAR系统，专事回答有关阿波罗登月返回的月球岩石样本的地质分析问题。SHRDLE 是另一个基于人工智能的专家系统，模拟的是机器人在玩具积木世界中的操作，机器人可以回答这个玩具世界的几何状态的问题，并听从语言指令进行合法操作。这些早期的AI探索看上去很精巧，揭示了一个有如科学幻想的童话世界，启发人的想象力和好奇心，但是本质上这些都是局限于实验室的玩具系统（toy systems），完全没有实用的可能和产业价值。随着作为领域的人工智能之路越走越窄（部分专家系统虽然达到了实用，基于常识和知识推理的系统则举步维艰），寄生其上的问答系统也基本无疾而终。倒是有一些机器与人的对话交互系统（chatterbots）一路发展下来至今，成为孩子们的网上玩具（我的女儿就很喜欢上网找机器人对话，有时故意问一些刁钻古怪的问题，程序应答对路的时候，就夸奖它一句，但更多的时候是看着机器人出丑而哈哈大笑。不过，我个人相信这个路子还大有潜力可挖，把语言学与心理学知识交融，应该可以编制出质量不错的机器人心理治疗师。其实在当今的高节奏高竞争的时代，很多人面对压力需要舒缓，很多时候只是需要一个忠实的倾听者，这样的系统可以帮助满足这个社会需求。要紧的是要消除使用者 “对牛弹琴”的先入为主的偏见，或者设法巧妙隐瞒机器人的身份，使得对话可以敞开心扉。扯远了，打住。）

二重生

产业意义上的开放式问答系统完全是另一条路子，它是随着互联网的发展以及搜索引擎的普及应运而生的。准确地说，开放式问答系统诞生于1999年，那一年搜索业界的第八届年会（TREC-8：Text REtrieval Conference）决定增加一个问答系统的竞赛，美国国防部有名的DARPA项目资助，由美国国家标准局组织实施，从而催生了这一新兴的问答系统及其 community。问答系统竞赛的广告词写得非常精彩，恰到好处地指出搜索引擎的不足，确立了问答系统在搜索领域的位置。记得是这样写的（大体）：用户有问题，他们需要答案。搜索引擎声称自己做的是信息检索（information retrieval），其实检索出来的并不是所求信息，而只是成千上万相关文件的链接（URLs），答案可能在也可能不在这些文件中。无论如何，总是要求人去阅读这些文件，才能寻得答案。问答系统正是要解决这个信息搜索的关键问题。对于问答系统，输入的是问题，输出的是答案，就是这么简单。

说到这里，有必要先介绍一下开放式问答系统诞生时候的学界与业界的背景。

从学界看，传统意义上的人工智能已经不再流行，代之而来的是大规模真实语料库基础上的机器学习和统计研究。语言学意义上的规则系统仍在自然语言领域发挥作用，作为机器学习的补充，而纯粹基于知识和推理的所谓智能规则系统基本被学界抛弃（除了少数学者的执着，譬如Douglas Lenat 的 Cyc）。学界在开放式问答系统诞生之前还有一个非常重要的发展，就是信息抽取（Information Extraction）专业方向及其community的发展壮大。与传统的自然语言理解（Natural Language Understanding）面对整个语言的海洋，试图分析每个语句求其语义不同，信息抽取是任务制导，任务之外的语义没有抽取的必要和价值：每个任务定义为一个预先设定的所求信息的表格，譬如，会议这个事件的表格需要填写会议主题、时间、地点、参加者等信息，类似于测试学生阅读理解的填空题。这样的任务制导的思路一下子缩短了语言技术与实用的距离，使得研究人员可以集中精力按照任务指向来优化系统，而不是从前那样面面俱到，试图一口吞下语言这个大象。到 1999年，信息抽取的竞赛及其研讨会已经举行了七届（MUC-7：Message Understanding Conference），也是美国DARPA项目的资助产物（如果说DARPA引领了美国信息产业研究及其实用化的潮流，一点儿也不过誉），这个领域的任务、方法与局限也比较清晰了。发展得最成熟的信息抽取技术是所谓实体名词的自动标注（Named Entity：NE tagging），包括人名、地名、机构名、时间、百分比等等。其中优秀的系统无论是使用机器学习的方法，还是编制语言规则的方法，其查准率查全率的综合指标都已高达90%左右，接近于人工标注的质量。这一先行的年轻领域的技术进步为新一代问答系统的起步和开门红起到了关键的作用。

到 1999年，从产业来看，搜索引擎随着互联网的普及而长足发展，根据关键词匹配以及页面链接为基础的搜索算法基本成熟定型，除非有方法学上的革命，关键词检索领域该探索的方方面面已经差不多到头了。由于信息爆炸时代对于搜索技术的期望永无止境，搜索业界对关键词以外的新技术的呼声日高。用户对粗疏的搜索结果越来越不满意，社会需求要求搜索结果的细化（more granular results），至少要以段落为单位（snippet）代替文章（URL）为单位，最好是直接给出答案，不要拖泥带水。虽然直接给出答案需要等待问答系统的研究成果，但是从全文检索细化到段落检索的工作已经在产业界实行，搜索的常规结果正从简单的网页链接进化到 highlight 了搜索关键词的一个个段落。

新式问答系统的研究就在这样一种业界急切呼唤、学界奠定了一定基础的形势下，走上历史舞台。美国标准局的测试要求系统就每一个问题给出最佳的答案，有短答案(不超过50字节)与长答案（不超过250字节）两种。下面是第一次问答竞赛的试题样品：

Who was the first American in space?
Where is the Taj Mahal?
In what year did Joe DiMaggio compile his 56-game hitting streak?

三奇迹

这次问答系统竞赛的结果与意义如何呢？应该说是结果良好，意义重大。最好的系统达到60%多的正确率，就是说每三个问题，系统可以从语言文档中大海捞针一样搜寻出两个正确答案。作为学界开放式系统的第一次尝试，这是非常令人鼓舞的结果。当时正是 dot com 的鼎盛时期，IT 业界渴望把学界的这一最新研究转移到信息产品中，实现搜索的革命性转变。里面有很多有趣的故事，参见我的相关博文：《朝华午拾：创业之路》。

回顾当年的工作，可以发现是组织者、学界和业界的天时地利促成了问答系统奇迹般的立竿见影的效果。美国标准局在设计问题的时候，强调的是自然语言的问题（English questions，见上），而不是简单的关键词 queries，其结果是这些问句偏长，非常适合做段落检索。为了保证每个问题都有答案，他们议定问题的时候针对语言资料库做了筛选。这样一来，文句与文本必然有相似的语句对应，客观上使得段落匹配（乃至语句匹配）命中率很高。设想如果只是一两个关键词，寻找相关的可能含有答案的段落和语句就困难许多。当然找到对应的段落或语句，只是大大缩小了寻找答案的范围，只是问答系统的第一步，要真正锁定答案，还需要进一步细化，pinpoint 到语句中那个作为答案的词或词组。这时候，信息抽取学界已经成熟的实名标注技术正好起到了这个作用。为了力求问答系统竞赛的客观性，组织者有意选择那些答案比较单纯的问题，譬如人名、时间、地点等。这恰好对应了实名标注的对象，使得先行一步的这项技术有了施展身手之地。譬如对于问题 “In what year did Joe DiMaggio compile his 56-game hitting streak?”，段落语句搜索很容易找到类似下列的文本语句：Joe DiMaggio's 56 game hitting streak was between May 15, 1941 and July 16, 1941. 实名标注系统也很容易锁定 1941 这个时间单位。An exact answer to the exact question，答案就这样在海量文档中被搜得，好像大海捞针一般神奇。沿着这个路子，11 年后的 IBM 成功地研制出打败人脑的电脑问答系统，获得了电视智能大奖赛 Jeopardy! 的冠军（见报道 COMPUTER CRUSHES HUMAN 'JEOPARDY!' CHAMPS），在全美观众面前大大地出了一次风头，有如当年电脑程序第一次赢得棋赛冠军那样激动人心。

当年成绩较好的问答系统，都不约而同地结合了实名标注与段落搜索的技术：证明了只要有海量文档，snippet+NE 技术可以自动搜寻回答简单的问题。

四现状

1999 年的学界在问答系统上初战告捷，我们作为成功者也风光一时，下自成蹊，业界风险投资商蜂拥而至。很快拿到了华尔街千万美元的风险资金，当时的感觉真地好像是在开创工业革命的新纪元。可惜好景不长，互联网泡沫破灭，IT 产业跌入了萧条的深渊，久久不能恢复。投资商急功近利，收紧银根，问答系统也从业界的宠儿变成了弃儿（见《朝华午拾 - 水牛风云》）。主流业界没人看好这项技术，比起传统的关键词索引和搜索，问答系统显得不稳定、太脆弱（not robust），也很难 scale up, 业界的重点从深度转向广度，集中精力增加索引涵盖面，包括所谓 deep web。问答系统的研制从业界几乎绝迹，但是这一新兴领域却在学界发芽生根，不断发展着，成为自然语言研究的一个重要分支。IBM 后来也解决了 scale up （用成百上千机器做分布式并行处理）和适应性培训的问题，为赢得大奖赛做好了技术准备。同时，学界也开始总结问答系统的各种类型。一种常见的分类是根据问题的种类。

我们很多人都在中学语文课上，听老师强调过阅读理解要抓住几个WH的重要性：who/what/when/where/how/why（Who did what when, where, how and why?）. 抓住了这些WH，也就抓住了文章的中心内容。作为对人的阅读理解的仿真，设计问答系统也正是为了回答这些WH的问题。值得注意的是，这些 WH 问题有难有易，大体可以分成两类：有些WH对应的是实体专名，譬如 who/when/where，回答这类问题相对容易，技术已经成熟。另一类问题则不然，譬如what/how/why，回答这样的问题是对问答学界的挑战。简单介绍一下这三大难题如下。

What is X？类型的问题是所谓定义问题，譬如 What is iPad II? (也包括作为定义的who：Who is Bill Clinton?) 。这一类问题的特点是问题短小，除去问题词What与联系词 is 以外（搜索界叫stop words，搜索前应该滤去的，问答系统在搜索前利用它理解问题的类型），只有一个 X 作为输入，非常不利于传统的关键词检索。回答这类问题最低的要求是一个有外延和种属的定义语句（而不是一个词或词组）。由于任何人或物体都是处在与其他实体的多重关系之中（还记得么，马克思说人是社会关系的总和），要想真正了解这个实体，比较完美地回答这个问题，一个简单的定义是不够的，最好要把这个实体的所有关键信息集中起来，给出一个全方位的总结（就好比是人的履历表与公司的简介一样），才可以说是真正回答了 What/Who is X 的问题。显然，做到这一步不容易，传统的关键词搜索完全无能为力，倒是深度信息抽取可以帮助达到这个目标，要把散落在文档各处的所有关键信息抽取出来，加以整合才有希望（【立委科普：信息抽取】）。

How 类型的问题也不好回答，它搜寻的是解决方案。同一个问题，往往有多种解决档案，譬如治疗一个疾病，可以用各类药品，也可以用其他疗法。因此，比较完美地回答这个 How 类型的问题也就成为问答界公认的难题之一。

Why 类型的问题，是要寻找一个现象的缘由或动机。这些原因有显性表达，更多的则是隐性表达，而且几乎所有的原因都不是简单的词或短语可以表达清楚的，找到这些答案，并以合适的方式整合给用户，自然是一个很大的难题。

下一个姐妹篇《立委科普：自动回答 How 与 Why 的问题》准备详细谈谈后两个难题。这篇已经太长，收住吧。希望读者您觉得不太枯燥，如果有所收获，则幸甚。谢谢您的阅览。

参考文献：
http://en.wikipedia.org/wiki/Question_answering

作者 52nlp

LLm 自然语言处理预训练模型

《立委科普：问答系统的前生今世》有6条评论

abc说道：

2011年05月7号 18:00

http://zh.wikipedia.org/zh/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E7%90%86%E8%A7%A3

[回复]
52nlp 回复:
8 5 月, 2011 at 19:09
发到这里没明白，看到水木上的帖子才明白。

[回复]
abc说道：

2011年06月27号 10:34

自然语言理解问题研究取得实质进展(2001-2011)
http://www.ccf.org.cn/sites/ccf/hycjneirong.jsp?contentId=2612640756314
《自然语言理解——一个关于机器感悟人类语言实质的逻辑理论》一文从图灵机模型局限性角度出发来重新看待自然语言理解理论,并着重对理论所涉及的概念与公设定理及其应用背景进行解释说明.还给出了理论的可靠性与完备性证明.作为语言理解理论的推论与应用,给出语用涵义的相关定义与定理并验证它的正确性与有效性,从而对什么是理解以及电脑如何能理解人类语言给出回答。

[回复]
“iPhone人工智能”的背后 | YY in Limbo 混沌海狂想说道：

2011年10月8号 03:02

[...] 我在iPhone 4S发布会之前就看过这篇文章，居然没注意到关键信息……我一直以为Nuance才是“iPhone语音识别”背后的核心技术，因为Nuance市值超过60亿，因为Apple买了Nuance的语音技术授权，因为Nuance跟IBM合作研发了人工智能Watson（其实除了语音识别和理解问题的部分，这家伙剩余的技术就是搜索和数据挖掘罢⋯⋯） [...]
Cryse说道：

2012年09月4号 16:01

让我想到了之前看的Watson介绍

[回复]
欧龙说道：

2014年08月7号 10:07

《立委科普：自动回答 How 与 Why 的问题》这一篇怎么搜都没搜到呢？楼主能分享下吗？

[回复]

立委科普：问答系统的前生今世

作者52nlp

作者 52nlp

相关文章

Qwen3来了，全尺寸开源，性能拉满！附最新一手实测！

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

《立委科普：问答系统的前生今世》有6条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《立委科普：问答系统的前生今世》有6条评论

发表回复

You missed