砖石,还是露水

  本文转自哈工大信息检索研究室刘挺老师的博客,是关于创新的,举了两个例子:基于字标注的中文分词方法和搜狗输入法,感觉写得很有启发性,读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物,他的博文估计很多都早已被读者熟悉,这里就不多说了。

           砖石,还是露水
            作者:刘挺
  我们一天忙到晚,自己耗费了很多精力不说,也消耗着国家的财力物力。我们除了培养了一批学生外,是否为学术进步或技术发展做出了点滴贡献,我们的工作成果是科学技术大厦里的梁柱、砖石,坚固而持久地发挥着作用,还是墙角的露水、楼顶的轻烟,转瞬间就蒸发消散了。

  要想作出有价值的工作,是需要有一些清晰而坚定的理念支撑的,否则很容易匆匆忙忙地迷失在短期的压力里。我心中好的研究成果是什么样的呢?我想应该具备一下几个特征:
  1、创新性:与以往的方法有本质的不同
  2、高性能:解决了旧方法无法解决的问题,导致性能指标有显著性提高
  3、简单:同行一听就能明白,并认同该方法在原理上的长处,纷纷感叹自己为什么没有想到
  4、换代:新方法一出,业内大部分产品都纷纷抛弃旧方法,采用这种新方法
  5、足够的影响面:能够抽象到一定高度,不局限于某个产品的细节

  举两个例子:

  1、算法:薛念文基于字标注的汉语分词方法
  未登录词识别是最影响汉语分词精度的问题,它的影响超过分词歧义处理。以往的方法先用词表把已登录的词先识别出来,然后在“散串”中去找未登录词。这样做的缺陷在于两方面,一是“分词歧义”和“未登录词识别”这两个问题的参数权重估价标准无法统一,二是未登录词中有时候会包含已登录词,或者未登录词和已登录词的交界处有歧义。由于这些不足无法克服,汉语分词的精度一直徘徊不前,方法上没有实质性创新,大多是修修补补。
  薛念文2002年提出了“基于字标注的汉语分词方法”,这种方法把以往用于短语识别的BIES标注方法(B-短语开头词,I-短语中间词,E-短语末尾词,S-单独成为短语的词)用到了分词上,对汉字进行标注(B-词中开头字,I-词中中间字,E-词中末尾字,S-单独成词的字),汉字得到标注,分词结果立现。对已登录词和未登录词中的字标注形式是一样的,这样就建立了统一的分词模型,而且不需要词表,只要有足够大的经过人工校对的分词语料即可。实验效果明显提高,凡是自然语言处理领域的人都知道BIES,一听就懂了,几年下来,多数商用的汉语分词系统都在采用基于字标注的方法了,分词是中文处理的基础问题,影响面足够大。
  这种方法的创新路线是“移植”,它把分词问题从匹配切分问题转换为标注问题,把紧邻“短语识别”中的方法移植过来,取得了成功。

  2、产品:搜狗拼音输入法
  在搜狗拼音以前,拼音输入法已经有很多种,如智能ABC,微软拼音等。2000年前后昙花一现的“智能狂拼”用大规模语料提高音字转换的精度,但提高是有限的,并没有产生换代的效果。拼音输入法似乎已经做到了极致,尽管不能让人很满意,但似乎也就只能停留在这个水平上了。
  2006年,搜狗拼音横空出世了,它利用网络收集广大输入法用户贡献的新词,什么“李宇春”、“张靓颖”,什么“蜗居”、“蚁族”,当你想输入时,早有网友贡献过该词,输入速度大幅度提升。拼音输入法最头疼的未登录词输入的准确性被大幅度提高了。  
  原理如此简单,效果如此明显,谷歌立即效仿,还惹上了侵权的麻烦,腾讯不甘落后,输入法在绝顶上又攀上了天梯,技术真的没有止境。搜狗由于率先创新,以先发优势横扫输入法市场,输入法是比较有粘性的产品,但也挡不住输入速度和体验大幅度提升的诱惑,在较短的时间内,搜狗输入法的市场占有率超过了70%。这是典型的由于技术创新带来的市场狂澜,好产品会说话。输入是计算机最基本的功能,搜狗通过输入法抢占客户端,影响颇大,为未来的产品拓展勾勒出广阔的空间。
  有的研究者喜欢开创新领域,找出新方向,用20%的力气作出80%的效果,然后又去开拓别的方向,因为最后20%的路程要用80%的努力才能完成,费力不讨好。搜狗输入法的成功告诉我们,最后5-10%的技术门槛里照样孕育这无穷的商机,只要方法得当,密切观察环境的变化,原来在单机条件下的确做不动的技术,在网络环境下有可能获得突破性的进展。跨越式的发展,不能靠补丁落补丁的量变积累,要有更纯净的一揽子解决问题的革命性方案。

  衷心期盼80后、90后的青年学者们,不满足于小的改良,不满足于使用机器学习领域最新研制的“秘密武器”,而是满怀颠覆式的技术梦想,抓住根本性问题,洞悉技术环境的变化,移植嫁接,化繁为简,做出让人眼前一亮、拍案叫绝的创新成果来。

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/砖石-还是露水

此条目发表在自然语言处理, 转载分类目录,贴了, , , , , 标签。将固定链接加入收藏夹。

砖石,还是露水》有 2 条评论

  1. zjznliang说:

    讲的太好了,长期潜水看到刘廷老师的博文 自曝一次:)

    [回复]

    52nlp 回复:

    刘老师的博文确实写得好,我也定期关注!

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注