NLP 是一个力气活:再论成语不是问题

NLP是一个力气活,100% agree.
日期: 01/04/2012 15:14:51

有朋友问:
Quote
俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。

从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要求系统理解日常用语,同时也理解专业文献,自然是很大,因为每个子领域都有很多术语(术语是成语的一种)。但是应用系统并不是百科全书,即便有能力建一个大而全的海量成语库,也没有必要,其运行和维护的成本超过了应用时带来的 marginal benefits,譬如,在我们的客户情报挖掘应用中,就不需要一个巨大的医疗术语库,尽管我们实际上已经有了这个库。

日常使用的成语是多少呢?往多说,10万条该够了吧。人脑如果不借助于临时查字典,学富五车的人也不过记得住10万成语到顶了吧。10万条对于现在的系统算什么。系统一启动就全load进内存随时待命了。
Quote
立委能不能给俺们简单科普一下,你们NLP产业到底发展到哪一步了。你的技术优势是什么?今后的发展方向又如何?

这个要简单说不太容易。让我试试吧:我们的技术优势就是探索出来一条利用深度分析而抽取任何文本信息(无论主观评价,还是客观事实)的高精度、细颗粒度的方法,而业界所流行的是浅度分析 and/or 机器学习,精度和颗粒度均低一个档次,质量完全不成比例,尽管后者的覆盖面会广一些。深度分析不是我们独有的,很多实验室都有;但是把深度分析应用到大规模真实语料能做出产品来,竞争者鲜见,原因大概是门槛太高了点儿。研究家们常常不习惯这种讲求平衡艺术(balancing art)而且需要极大耐力和应变灵活性的力气活,他们所擅长的是把一个思路推向极致,试图在算法或者理论上寻求突破或不同,这也有利于他们耐以生存发展的论文发表。多数习惯于短平快出成果的理工背景的机器学习家,往往对语言的混乱度估计不足,面对silent majority 的个性现象不甚耐烦(sparse data 是他们的死敌,在语言现象中格外明显)。当然,这也不是火箭技术,总会有人赶上的,但这里有个时间差。龟兔赛跑,并非每个兔子都爱睡懒觉。时间差算是一个很大的 competitive advantage.

今后的发展方向,我只能凭感觉说了。从科学角度,弱监督的机器学习(weakly supervised learning)如果有理论和方法上的突破,可能给语言技术的应用带来崭新的局面。从实践上看,更有迹可寻的方向是建立一个机器学习和人工干预的集成交互的语言技术开发环境和平台,使得语言技术开发较少依赖于一个人的经验和平衡术,较多地决定于数据的制导。形象点儿说就是,要把中国餐馆式依赖大厨独门技术的作业方式,改变成麦当劳式(其实更高质量并且有QA保证的 In-n-Out 更加合适)的流水作业,用以保证技术开发的基本质量。

本文引用地址:http://blog.sciencenet.cn/blog-362400-525929.html

此条目发表在自然语言处理分类目录。将固定链接加入收藏夹。

NLP 是一个力气活:再论成语不是问题》有 3 条评论

  1. 52nlp说:

    李维老师搬运文章也是体力活啊,最好能将其中的一些图片搞小一些。

    [回复]

    liwei999 回复:

    等找时间重整吧。
    力气活不怕,可也不要累死我啊

    [回复]

  2. 官永庆说:

    很有见地 我是应用领域人员 觉得很多时候 给出的N-best候选结果就好了 我也认为学界评价的Precision、Recall、F1这些指标并不对NLP产品在具体环境领域下的实施效果完全负责(对等表现)

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注