【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】

不是冤家不碰头

 

Statisticians vs. Linguists: Deep-seated Antagonists? (Or Protagonists in NLP?)

 

Chemistry? No! (生意归生意,感情归感情)

 

 

【一辈子只做一件事,幸也不幸?】

 

不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。

 

在当今的社会,有多少人学了一个专业,喜欢上一个专业,就一条路走到黑?尤其是信息产业和技术,瞬息万变,不是被时代淘汰,就是被市场淘汰。前者譬如知识来不及更新,长江后浪推前浪,前浪死在沙滩上。不是说么,搞软件的,中年做不了经理,走技术路线的基本没戏:小年轻头脑多灵光,知识多新鲜,Facebook 和 Google 的创始人不都是娃娃嘛,后生可畏,此之谓也。后者呢,譬如入行的专业太超前,“太科学”,技术不成熟,不能实用,市场无法消化,那也只好转行。这样的例子在身边朋友中常见。

事实上,跟我同辈的学我这行的,除了在大学研究院的象牙塔做教授研究员的以外,几乎全部转行了。师兄中很精明能干的几位也都转行了,不是因为不喜欢 NLP,而是市场还不能消化。当然,转行的师兄们也都做得很好,事业很发展,生活很安逸。
我背负着语言学的沉重包袱,居然survived到今天,简直是奇迹。当然,95%靠运气,上苍的眷顾,譬如博士刚完就天上掉馅饼,不早不晚一头撞上了美国的科技大跃进,泡沫起处有黄金,躲都躲不过。一路下来,直到今天,NLP 的工业曙光已然显现。
说到语言学的沉重包袱,业内人士都理解这是什么含义。Google 的吴军写过一本非常深入浅出的NLP和机器学习的入门书《数学之美》(他把晦涩干巴的统计公式和算法及其背后的人和事,能写到如此少妇能解,引人入胜,值得向后学强力推荐)。他转述了这么一个令语言学家心惊肉跳的业内掌故,一个理呆和文傻的浪漫悲剧。说是我们这行的一位机器学习的大牛,出道时与水性杨花的语言学家眉来眼去要搞合作,结果是语言学家觅得他欢,兴趣转移去写歌剧了。郎有情,妾无意,把他dump吊在那里了。大牛也是人,带着初恋失败似的恼怒,从此怨恨上了语言学家。在后来的系统中,几乎全部倚靠数据和自动学习算法,不断排挤语言学家。他的名言是:每当我开除一个语言学家,我的系统的正确率就提高数个百分点。在他眼中,语言学家就是一帮腐儒,只见树木不见森林,成事不足败事有余,不如炒丫鱿鱼,一了百了。
这位大牛当然有偏见。可他说的也是事实,这年头语言学和语言学家都不好做。数据爆炸的时代,语言学家无法垄断语言材料,代 social or 圣人言,稍不留神,即弄巧成拙。(传统)语言学不硬(据传属文科),语言学家当然也硬不起来。不见语言学家们爱吵架,为个小小的 self(反身代词),正室偏房的身份定位问题就闹了个鸡犬不宁,各种妻妾理论(Binding theories)和规则满天飞,互不服气,发论(战)文无数,跟三十年代文人为两个口号(国防文学vs大众文学)争辩到天昏地暗有一比。不怪让统计理呆们瞧不起。大事做不来,小事常 overdone,徒为系统增加 overhead,根本不讲 cost-effectiveness,依靠语言学家,还不如依靠数据。事实证明,这帮理呆不仅仅是会数数的精算师,他们也确实搞出了名堂,譬如统计型机器翻译(最漂亮的可算是 Google Translate),譬如语音识别(最性感的要数苹果爱疯的Siri小蜜),这些传统的NLP应用,到统计学家手中都做到了大规模实用,不服不行。统计学家不可一世,登门入室做掌门人是大势所趋。成为主流的统计学家和沦落为二等公民的语言学家这种尴尬还会存续很长一段时间。此乃箴言:永远不要与主流正面冲突。主流即合理。顺昌逆亡。
可是他们也有软肋。一是他们语言学实在太差,没有sense,离不开数据。结果呢,凡是缺乏数据的地方,丫就抓瞎了。二来呢,他们一根筋,凡是复杂的问题一律需要简化才可施行,说到底,再牛的算法也经不起组合爆炸。简化不了呢,或者简化以后成了一笔绕晕丫的糊涂账,他们也抓瞎。背后说人坏话不宜多,点到为止。
认真说起来,还是要二者精诚合作,方可取得真经。不是冤家不碰头,看造化了。

http://blog.sciencenet.cn/blog-362400-622938.html

此条目发表在自然语言处理分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注