作者归档:liwei999

读书笔记:YT 神功源自 TWSS

YT 是黑话,以前论过,不赘。无需深究,乃借题发挥,引入最近的读书笔记一则。

Quote

For those who are too polite to know this type of humor, let me explain. When speaking in a non-sexual context, we sometimes say things that are not funny, but which would be funny if the same words were uttered in a sexual context. A listener may detect the double meaning, and respond to your words with, “that’s what she said”, thus putting the remark into a sexual context, and creating a joke. Here’s an example:

Man 1: (looking at deli sandwiches) Wow, they’re much bigger than I expected.
Man 2: That’s what she said!

摘自 http://us.textanalyticsnews.com/fc_fcbi1lz/lz.aspx?p1=05555212S3562&CC=&p=1&cID=0&cValue=1

just finished reading the academic paper on this research, done by some professors at Washington Univ.

It is very, very research oriented and academic and should not even bother practitioners in industry at all.

It is eye-catching and certainly has academic value due to no one having done anything on this so-called TWSS (That is What She Said) problem before.

It is intended to identify/classify via machine learning a subset of puns which might (and might not) contain sarcasm on a brand. But mainly it is only a very small subset of data associated with some adult jokes.

First of all, puns are the last thing which should be brought to the table as an object for automatic processing in a real life system not only because they are statistically rare but also because they are so complex and often involve cultural context. There are endless jobs which are much more widespread and much more tractable for automatic processing. Spending resources on such a problem in industry is not wise, nor effective.

It is one of those again, technology news reporters like to cover stories like that as it draws people's attention and imagination.

Some research is twisted/exaggerated out of context to sound like the next big thing in real life technology.

If they are real for apps they should show benchmarks from real life large corpus. Not the benchmark reported in the paper on some select corpus of a particular source, but the one from the social media at large. First question to answer is how much TWSS is in social media, how relevant it is when it does occur to brands and lastly how the classification will be used in apps. None of these are answered by the research publication, so it is not worth the time in looking into this.

It is eye catching. That's all.

RE:  Subject: What can jokes teach us about NLP?
Can your text analytics algorithm tell the difference between a joke and a serious statement?

Reference:
http://www.aclweb.org/anthology-new/P/P11/P11-2016.pdf

http://blog.sciencenet.cn/blog-362400-617371.html

【研发笔记:粤语文句的情报挖掘】

在研发社会媒体舆情挖掘的中文系统过程中,遇到一些粤语的帖子,看上去似懂非懂的。从机器处理角度来看,方言与行业用语类似,算是一种子语言(sublanguage),可以看作是普通话的变体。其中绝大多数的区别在词汇层,句子结构大同小异。于是决定采用先把粤语文句自动翻译成普通话的方法,然后再 feed 到普通话的主体系统去做分析和挖掘,这样比较简便可行,系统接口清晰,主体中文系统无需改变即可识得广东话。研发一个句对句自动翻译系统作为前处理太过繁难,对于子语言而言,有些牛刀宰鸡了。于是决定退回到上个世纪50年代的词对词第一代机器翻译(word-for-word MT)的路子上来(见【立委科普:机器翻译】),再加上一点儿有限语境消歧(local context disambiguation),应该是可以基本满足要求的:我们不追求完美的翻译,只要翻译过来的普通话大体可读就差不多了。这样的项目不大不小,需要语言数据分析,编写机器翻译词典,上机调试,正好适合做研究生的暑期实习。一个暑假下来,在指导暑期实习生的过程中,我这个原来对粤语一窍不通的语言学家,也差不多成了一个半吊子粤语实践者了:虽然不会发音,但看文字大体89不离10了,也算是收获。从系统来看,这个项目完成得不错,编写了一部6000多词条的机器翻译转换(翻译)词典,增加了两个粤语上下文规则的小模块,加上编写出一个粤语识别的程序,可以宣称支持粤语这个子语言的处理和舆情挖掘了。测试结果看也很不错,可以对付80%以上的粤语现象,今后的工作主要是词典维护和在调试中慢慢提高质量(incremental enhancement),无需大手术,感觉对这个方案的设计和执行基本满意。


由于我们的系统是面对社会媒体,粤语处理的难度比传统媒体(譬如香港、广东的地方报纸上的文字)大了很多。很多粤语特用的汉字在社会媒体上都是别字,很多人为了打字方便,就胡乱用别字代替(如 【既】 代替 【嘅】,【系】代替【喺】,【左】代【咗】,【比】【俾】,等等),只要读起来差不多音的,怎么方便怎么来,简直是随心所欲 [令人发指],没有什么规范。最头疼的是这些别字往往是普通话里也常用的汉字,这造成了很多歧义。经过努力,我们还是基本搞定了这些混淆杂乱的粤语社会媒体的自动规整和翻译的工作。

下面演示一些粤语帖子的自动翻译实例:
點解學生就要平比佢?佢地咩資格去玩器材
佢呃人你又知
搏大霧哩樣野真係唔要得、有欺詐成份
佢話你知?
反正你咁八又要投訴, 點解唔問下當時人
4s冇啦啦壞左
係咪架, 睇下先
好似幾靚, 快啲俾我睇
琴日係唔知邊到早就見到,我仲以為又係fake
官網既可信性好高
而且 Apple 不嬲都唔會一早更新定網站
作為iphone的fans明知是呃錢也會買的
估佢唔到
真係唔講都唔知
有冇多d
所以~佢應該食埋煙
咁樣佢會變成炸蛋人架喎
香港迪士尼真係睇唔到有咩前景
======》
            为什么學生就要平比他?他们什么資格去玩器材
他骗人你又知
混水摸魚这样东西真是要不得、有欺詐成份
他告诉你?
反正你这样八又要投訴, 为什么不問下當時人
4s无端壞了
是不是架, 看下先
好像蛮漂亮, 快一些给我看
昨日是不知哪里早就見到, 我还以為又是fake
官網的可信性好高
而且 Apple 向来都不會早就更新定網站
作為iphone的fans明知是骗钱也會買的
估他不到
真是不講都不知
有没有多d
所以~他應該吃完煙
这样樣他會變成炸蛋人架喔
香港迪士尼真是看不到有什么前景
下面是粤语帖子大体转化为普通话以后的的自动句法分析而得的树形图演示:

最后是从粤语帖子中挖掘出来的关于产品/品牌的客户评价或舆情:
乌拉,#we support 粤语# 拉!~[骄傲][得意] #NLP #IE #AI #Cantonese @52nlp @liwei999 @米拉宝鉴 @立委
有老友提供了地道的人工翻译,谨致谢忱。
帮你翻译一下

日期: 09/28/2012 00:02:02

點解學生就要平比佢?佢 地咩資格去玩器材
为什么是学生就得给个便宜价格?他们(有)什么资格去玩器材?

佢呃人你又知
他骗人你也知道?

搏大霧哩樣野真係唔要得、有欺詐成份
蒙混过关这样的行为真是要不得,算是欺诈行为

佢話你知?
他告诉你的?

反正你咁八又要投訴, 點解唔問下當時人
反正你那么八卦(罗嗦)又要投诉,为啥不去问下当事人?

4s冇啦啦壞左
4s无缘无故坏了

係咪架, 睇下先
是不是的啊?看看先

好似幾靚, 快啲俾我睇
好象挺漂亮,快点给我看

琴日係唔知邊到早就見到,我仲以為又係fake
昨天在某个地方早就看到过了,我还以为又是fake的

官網既可信性好高
官网的可信度很高

而且 Apple 不嬲都唔會一早更新定網站
而且Apple 从来都不会提早更新好网站

作為iphone的fans明知是呃錢也會買的
作为iphone的fans明知是骗钱也会买的

估佢唔到
猜不到他(以后的行为)

真係唔講都唔知
真是(别人)不说(我)都不知道

有冇多d
有没多一些啊

所以~佢應該食埋煙
所以,他应该也学会吸烟

咁樣佢會變成炸蛋人架喎
这样他会变成炸弹人的啊

香港迪士尼真係睇唔到有咩前景
香港迪士尼真是看不到有什么前景

对比一下机器的翻译质量。。。

http://blog.sciencenet.cn/blog-362400-617394.html

社会媒体舆情自动分析:马英九 vs 陈水扁

Different social images and social media sentiments for Ma Yingjiu, Taiwan President, and Chen Shuibian, Taiwan former president.

不同的社会媒体评价,截然不同的民间形象,台湾现总统马英九 vs 台湾前总统陈水扁,社会媒体自动分析的初步结果凸显二者的不同形象和风格。
(1) 高频情绪性词的词频分析的对照图示
(2) 高频褒贬描述性词的词频分析的对照图示
相关篇什:

http://blog.sciencenet.cn/blog-362400-617870.html

《科研笔记:中文图灵试题?》

Chinese Turing Tests??

Challenging my Chinese dependency parser with puns. The real thing is, structural ambiguity is detectable, but not easily decodable.
As for puns, forget it!
Do you remember the last time you yourself, as an intelligent being designed by almighty God, were puzzled by jokes of puns?
RE: 立委,测试你分析工具的图灵试题来了

大学里有两种人不谈恋爱:一种是谁都看不上,另一种是谁都 看不上。

parse 后一看,居然 合一 (unify)了:真地歇菜了??
作者: 立委 
日期: 10/11/2012 17:55:00

 

但是,(镜子曰,世界上怕就怕但是二字),请注意同样的string “是谁都看不上” 是怎样分析的:分析出两种意义

【意义1】是这么断句的:【是谁】 【都看不上】:【谁】 是【是】的逻辑宾语(Undergoer)

【意义2】则是:【是】 【谁都看不上】:【谁】 是【看不上】的逻辑主语(Actor)

哈哈,不傻吧,my baby

当然,同样的string,在目前是无法指望机器输出不同结果的。
实用的 parsing 技术从来没有超出语句级别的 context 来解码句法结构。

据说,类似的中文“图灵试题”还有:
大学里有两种人最容易被甩:一种人不知道什么【叫做】爱,一种人不知道什么叫【做爱】。
这些人都是原先喜欢一个人,后来喜欢一个人。
老友说,最后一句的精彩之处不在分词,在重音位置。机器只能歇菜rolling
当然这些都是戏谑性的 puns,连人都会被绕晕,根本不用做 real life 系统的人分心。实际语言现象中,有的是 low hanging food, 很多 tractable 的问题好多系统都未及涉及呢,教机器识别 puns 这样劳而无功的勾当,根本排不上号。
 【维基:图灵测试

http://blog.sciencenet.cn/blog-362400-621779.html

【立委随笔:中文之心,如在吾庐】

借用盛传的霸王当年热恋时的妙句(“友人之心,如在吾庐”),我要说:二十五年了,中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。


很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦,再往后就是 incremental 的修补和维护了。大山大水已然身后,总之是 second to none,而且已经大数据(big data)大规模实用化了(Internet scale, with products globally distributed),应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。

都说中文是世界上最诡秘、最玄妙、最不讲逻辑,总之是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”(semantic coherence),非常识推理(common sense reasoning)不能,是对自然语言理解(NLU)和人工智能(AI)前所未有的挑战。目的地如此高远,而现状却非常悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔。切词算什么?最多算万里长征的前十步而已(参见【立委随笔:应该立法禁止分词研究 :=)】)。

我就不信这个邪,不可以走中间道路来曲线救国。许多思考、想法,在头脑绕了很多年,一直未及实现,现在是时候了。这辈子不爬中文的珠穆朗玛,白做中国人,枉为语言学博士,对不起NLP这个饭碗。陶先生说:归去来兮,田园将芜胡不归?
喝令三山五岳开道,中文处理,我回来了!
出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。
请欣赏立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用text editor 数着空格和汉字去“画树”,就如我年三十在机房数着character描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的句法分析器自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。
25年前的蓝图(美梦):
25年后的实现(成真):
工作着是美丽的。绿色革命万岁。
【附录示例:更多的美梦,更多的成真】

但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。
 胶合板是把原木旋切或刨切成单片薄板, 经过干燥、涂胶,  并按木材纹理方向纵横交错相叠, 在加热或不加热的条件下压制而成的一种板材。
【相关篇什】

汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真)】:

            ChineseDependencyGrammar1.txt ;
            ChineseDependencyGrammar2.txt ;

http://blog.sciencenet.cn/blog-362400-622298.html

【立委随笔:文傻和理呆的世纪悲剧(romance tragedy)】

不是冤家不碰头

 

Statisticians vs. Linguists: Deep-seated Antagonists? (Or Protagonists in NLP?)

 

Chemistry? No! (生意归生意,感情归感情)

 

 

【一辈子只做一件事,幸也不幸?】

 

不知道多少次电脑输入 NLP(自然语言处理),出来的都是“你老婆”。难怪 NLP 跟了我一辈子,or 我跟了 NLP 一辈子。不离不弃。

 

在当今的社会,有多少人学了一个专业,喜欢上一个专业,就一条路走到黑?尤其是信息产业和技术,瞬息万变,不是被时代淘汰,就是被市场淘汰。前者譬如知识来不及更新,长江后浪推前浪,前浪死在沙滩上。不是说么,搞软件的,中年做不了经理,走技术路线的基本没戏:小年轻头脑多灵光,知识多新鲜,Facebook 和 Google 的创始人不都是娃娃嘛,后生可畏,此之谓也。后者呢,譬如入行的专业太超前,“太科学”,技术不成熟,不能实用,市场无法消化,那也只好转行。这样的例子在身边朋友中常见。

事实上,跟我同辈的学我这行的,除了在大学研究院的象牙塔做教授研究员的以外,几乎全部转行了。师兄中很精明能干的几位也都转行了,不是因为不喜欢 NLP,而是市场还不能消化。当然,转行的师兄们也都做得很好,事业很发展,生活很安逸。
我背负着语言学的沉重包袱,居然survived到今天,简直是奇迹。当然,95%靠运气,上苍的眷顾,譬如博士刚完就天上掉馅饼,不早不晚一头撞上了美国的科技大跃进,泡沫起处有黄金,躲都躲不过。一路下来,直到今天,NLP 的工业曙光已然显现。
说到语言学的沉重包袱,业内人士都理解这是什么含义。Google 的吴军写过一本非常深入浅出的NLP和机器学习的入门书《数学之美》(他把晦涩干巴的统计公式和算法及其背后的人和事,能写到如此少妇能解,引人入胜,值得向后学强力推荐)。他转述了这么一个令语言学家心惊肉跳的业内掌故,一个理呆和文傻的浪漫悲剧。说是我们这行的一位机器学习的大牛,出道时与水性杨花的语言学家眉来眼去要搞合作,结果是语言学家觅得他欢,兴趣转移去写歌剧了。郎有情,妾无意,把他dump吊在那里了。大牛也是人,带着初恋失败似的恼怒,从此怨恨上了语言学家。在后来的系统中,几乎全部倚靠数据和自动学习算法,不断排挤语言学家。他的名言是:每当我开除一个语言学家,我的系统的正确率就提高数个百分点。在他眼中,语言学家就是一帮腐儒,只见树木不见森林,成事不足败事有余,不如炒丫鱿鱼,一了百了。
这位大牛当然有偏见。可他说的也是事实,这年头语言学和语言学家都不好做。数据爆炸的时代,语言学家无法垄断语言材料,代 social or 圣人言,稍不留神,即弄巧成拙。(传统)语言学不硬(据传属文科),语言学家当然也硬不起来。不见语言学家们爱吵架,为个小小的 self(反身代词),正室偏房的身份定位问题就闹了个鸡犬不宁,各种妻妾理论(Binding theories)和规则满天飞,互不服气,发论(战)文无数,跟三十年代文人为两个口号(国防文学vs大众文学)争辩到天昏地暗有一比。不怪让统计理呆们瞧不起。大事做不来,小事常 overdone,徒为系统增加 overhead,根本不讲 cost-effectiveness,依靠语言学家,还不如依靠数据。事实证明,这帮理呆不仅仅是会数数的精算师,他们也确实搞出了名堂,譬如统计型机器翻译(最漂亮的可算是 Google Translate),譬如语音识别(最性感的要数苹果爱疯的Siri小蜜),这些传统的NLP应用,到统计学家手中都做到了大规模实用,不服不行。统计学家不可一世,登门入室做掌门人是大势所趋。成为主流的统计学家和沦落为二等公民的语言学家这种尴尬还会存续很长一段时间。此乃箴言:永远不要与主流正面冲突。主流即合理。顺昌逆亡。
可是他们也有软肋。一是他们语言学实在太差,没有sense,离不开数据。结果呢,凡是缺乏数据的地方,丫就抓瞎了。二来呢,他们一根筋,凡是复杂的问题一律需要简化才可施行,说到底,再牛的算法也经不起组合爆炸。简化不了呢,或者简化以后成了一笔绕晕丫的糊涂账,他们也抓瞎。背后说人坏话不宜多,点到为止。
认真说起来,还是要二者精诚合作,方可取得真经。不是冤家不碰头,看造化了。

http://blog.sciencenet.cn/blog-362400-622938.html

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你。

Obama won the debate, see our evidence

民调自动化,技术带领你自动检测舆情: 社会媒体twitter的自动检测表明,奥巴马显然赢了昨晚的第二次辩论。人气曲线表明他几乎在所有议题上领先罗梅尼。

对奥巴马真正具有挑战性的议题有二:一是他在第一任总统期间的经济表现(6:55pm);二是批判他对中国不够强硬 (7:30pm)。

人气曲线反映了由我们自然语言技术支持的实时舆情挖掘。


技术改变世界,甚至总统......乃至你我。
技术改变世界,甚至总统。。。乃至你我:奥巴马赢了昨天的二次辩论
日期: 10/18/2012 02:32:00

http://blog.sciencenet.cn/blog-362400-623922.html

【立委科普:自动民调】

自动民调(or 机器民调: Automatic Survey / Machine Survey)指的是利用电脑从语言数据中自动抽取挖掘有关特定话题的民间舆论,其技术领域即所谓舆情挖掘(sentiment mining),通常需要自然语言(NLP)和机器学习(Machine Learning)等技术作为支持。自动民调是对传统的问卷调查一个补充或替代。在社会媒体日益普及的今天,民间情绪和舆论通过微博、博客或论坛等社会媒体管道铺天盖地而来,为了检测、采集和吸收这些舆论,自动民调势在必行,因为手工挖掘面对大数据(big data)已经完全不堪负荷。

 

民意调查(poll)可以为政府、企业以及民众的决策提供量化情报,应用范围极其广泛。总统大选是一个突出的例子,对于总统候选人本人及其竞选团队,对于选民,民调的结果可以帮助他们调整策略或作出选择。产品发布是企业的例子,譬如 iPhone 5 发布以后,民调的反馈可以帮助苹果及时发现问题。对于有意愿的消费者,民调的结果也有助于他们在购买、等待还是转向别家的决策时,不至于陷入盲目。

 

相对于传统的以问卷(questionnaire)调查为基础的民调,自动民调有以下几个突出特点。

 

及时性。传统民调需要经过一系列过程,设计问卷、派发问卷(通过电话采访、街头采访、有奖刺激等手段)、回收问卷,直到整合归纳,所有程序都须手工进行,因此难以做到及时响应。一个认真的客户产品调查常常需要几天甚至几周时间方可完成。自动民调可以做到立等可取。对于任意话题,使用自动民调系统就像利用搜索引擎一样方便,因为背后的处理机在不分昼夜地自动分析和索引有关的语言资料(通常来自社会媒体)。

 

高性价。传统民调的手工性质使得只有舍得不菲的花费,才可以做一项有足够规模的民调(样本小误差就大,难以达到民调的目的)。自动民调是由系统自动完成,同一个系统可以服务不同客户不同话题的各种民调,因此可以做到非常廉价,花费只需传统民调的零头。样本数可以高出手工调查回收数量的n个量级,是传统民调无法企及的。至于话费,通常的商业模式有两种,客户可以订阅(license)这样的系统的使用权,然后可以随时随地对任意多话题做任意多民调。零散客户也可以要求记件使用,每个话题民调一次缴纳多少钱。
客观性。传统民调需要设计问卷,这就可能有意无意引入主观因素,因此不能完全排除模糊歧义乃至误导的可能。自动民调是自底而上的自动数据分析,用的是归纳整合的方法,因此更加具有客观性。为了达成调查,调查者有时不得不施行物质刺激,这也产生了部分客户纯粹为了奖励而应付调查、返回低质问卷的弊端。自动民调的对象是民意的自然流露(水军和恶意操纵另论),基数大,也有利于降噪,这就保障了情报的客观性。

 


对比性。这一点特别重要,因为几乎任何话题的民调,都需要竞争对手或行业的背景。正面反面的舆论,问题的严重性等等,只有通过对比才能适当体现。譬如民调奥巴马的总统竞选效益,离不开对比其对手罗梅尼。客户调查 AT&T 手机网络的服务,离不开比较其竞争者 Verizon,等。很多品牌实际上需要与一系列同类品牌做对比,才好确定其在市场的地位(如上图所示)。这种对比民调,虽然在理论上也可以手工进行,但是由于手工民调耗时耗力耗钱,很多时候调查者不得不减少或者牺牲对于竞争对手的调查,利用有限的资源只做对本企业的品牌调查。可自动调查就不同了,多话题的调查和对比是这类产品设计的题中应有之义,可以轻易完成。

 

自动民调也有挑战,主要挑战在于人为噪音:面对混乱的社会媒体现实,五毛、水军以及恶意舆论的泛滥,一个有效的舆情系统必须不断与垃圾作战。好在这方面,搜索引擎领域已经积攒了丰富的经验可以借鉴。另一个挑战是需要对网络世界做两类媒体的分类(所谓push/pull的媒体分野)。民意调查切忌混入“长官意志”,客户情报一定要与商家宣传分开:同是好话,商家是王婆卖瓜,客户才是上帝下旨。这种媒体分类可以结合来源(sources)、语气(宣传类材料常常是新闻官方语气,而客户评价则多用口语和网络语)来决定,是有迹可寻的。

 

总之,在互联网的时代,随着社会媒体的深入民间,民间情绪和舆论的表达越来越多地诉诸于社会媒体。因此,民调自动化势必成为未来民调的方向和主流。其支持技术也基本成熟,大规模多语言的应用指日可待。

 

【相关篇什】

奥巴马赢了昨晚辩论吗?舆情自动检测告诉你

社会媒体舆情自动分析:马英九 vs 陈水扁

舆情自动分析表明,谷歌的社会评价度高出百度一倍

方韩大战的舆情自动分析
立委名言:技术改变世界,甚至总统......乃至你我。

http://blog.sciencenet.cn/blog-362400-624089.html

后生可畏,专业新人对《迷思》争论表面和稀泥,其实门儿清

“专业新人” (early stage researcher)也别被我的夸赞冲昏头脑。门道门道,有门有道。门儿清,不等于道儿清。做到门儿情,只要聪颖和悟性即可,而道儿清要的却是耐性、经验、时间,屡战屡败、屡败屡战的磨练,而且还要有运气。是为冰冻之寒也。
On Thu, Dec 29, 2011 G wrote:

>> As you titled yourself early stage researcher, I'd recommend you a recent dialog on something related -
http://blog.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=523458.
>> He has a point as an experienced practitioner.

>> I quote him here as overall he is negative to what you are going to work on [注:指的是切词研究]. And agree with him that it's time to shift focus to parsing.
2011/12/29 G
Continuation of the dialog, but with an "early stage researcher". FYI as I actually recommended your blogs to him in place of my phd thesis 🙂

On Dec 29, 2011, M wrote:
Hi Dr. G,

I just read the Liwei's posts and your comments. I partly agree with Liwei's arguments. I think It's just a different perspective to one of the core problem in NLP, disambiguation.

Usually, beginners take the pipeline architecture as granted, i.e. segmentation-->POS tagging-->chunking-->parsing, etc. However, given the ultimate goal is to predict the overal syntactical structures of sentences, the early stages of disambiguation can be considered as pruning for the exponential number of possible parsing trees. In this sense, Liwei's correct. As ambiguity is the enemy, it's the system designer's choice to decide what architecture to use and/or when to resolve it.

I guess recently many other people in NLP also realized (and might even widely agreed on) the disadvantages of pipeline architectures, which explains why there are many "joint learning of X and Y" papers in past 5 years. In Chinese word segmentation, there are also attempts at doing word segmentation and parsing in one go, which seems to be promising to me.

On the other hand, I think your comments are quite to the point. Current applications mostly utilize very shallow NLP information. So accurate tokenization/POS tagger/chunker have their own values.

As for the interaction between linguistics theory and computational linguistics. I think it's quite similar to the relationship between other pairs of science and engineering. Basically, science decides the upper bound of engineering. But given the level of scientific achievements, engineering by itself has a huge space of possibilities. Moreover, in this specific case of our interest, CL itself may serve as a tool to advance linguistics theory, as the corpus based study of linguistics seems to be an inevitable trend.

From: Wei Li
Date: Fri, Dec 30, 2011

He is indeed a very promising young researcher who is willing to think and air his own opinions.

I did not realize that the effect of my series is that I am against the pipeline architecture. In fact I am all for it as this is the proven solid architecture for engineering modular development. Of course, by just reading my recent three posts, it is not surprising that he got that impression. There is something deeper than that: a balance between pipeline structure and keeping ambiguity untouched principle. But making the relationship clear is not very easy, but there is a way of doing that based on experiences of "adaptive development" (another important principle).

【相关博文】
专业老友痛批立委《迷思》系列搅乱NLP秩序,立委固执己见

NLP 历史上最大的媒体误导:成语难倒了电脑

NLP 最早的实践是机器翻译,在电脑的神秘光环下,被认为是 模拟或挑战 人类智能活动的机器翻译自然成为媒体报道的热点。其中有这么一个广为流传的机器翻译笑话,为媒体误导之最:

说的是有记者测试机器翻译系统,想到用这么一个出自圣经的成语:

The spirit is willing, but the flesh is weak (心有余而力不足)

翻译成俄语后再翻译回英语就是:

The whiskey is alright, but the meat is rotten(威士忌没有问题,但肉却腐烂了)

这大概是媒体上流传最广的笑话了。很多年来,这个经典笑话不断被添油加醋地重复着,成为NLP的标准笑柄。

然而,自然语言技术中没有比成语更加简单的问题了。成语是NLP难点的误解全然是外行人的臆测,这种臆测由于两个因素使得很多不求甚解的人轻信了。其一是NLP系统的成语词典不够全面的时候造成的类似上述的“笑话”,似乎暴露了机器的愚蠢,殊不知这样的“错误”是系统最容易 debug 的:补全词典即可。因为成语 by definition 是可列举的(listable),补全成语的办法可以用人工,也可以从语料库中自动习得,无论何种方式,都是 tractable 的任务。语言学告诉我们,成语的特点在于其不具有语义的可分解性(no/little semantic compositianlity),必须作为整体来记忆(存贮),这就决定了它的非开放性(可列举)。其二是对于机器“理解”(实际是一种“人工智能”)的误解,以为人理解有困难的部分也必然是机器理解的难点,殊不知两种“理解”根本就不是一回事。很多成语背后有历史故事,需要历史知识才可以真正理解其含义,而机器是没有背景知识的,由此便断言,成语是NLP的瓶颈。

事实是,对于 NLP,可以说,识别了就是理解了,而识别可枚举的表达法不过是记忆而已,说到底是存储量的问题。可是确实有人天真到以为由冷冰冰的无机材料制作的“电脑”真地具有人脑那样的自主理解 能力/机制。 

引用
成语的本质是记忆,凡记忆电脑是大拿,人脑是豆腐

当然要大词库,无论何种方式 建立,只要想做就可以做,因此不是问题。

所谓自然语言“理解”(NLU),就是把 open expressions 分解成词典单位(包括成语)的关系组合(术语叫 semantic compositionality)。凡事到了词典层,理解就终结了。无论semantic representation 如何摆弄,那都是系统内部的事情(system internal),与理解的本质无关。



【后记】为写这篇短文,上网查阅这个广为流传的笑话的原始出处,结果发现了冯志伟老师有专文讲述这个故事的来历和变迁,根据冯老师的考证,这个笑话是杜撰出来的(见 《冯志伟:一个关于机器翻译的史料错误》)。本文的主旨是澄清这一误解。杜撰与否并不重要,重要的是这个笑话的娱乐性以及媒体与大众对于娱乐的追求使得一种似是而非的误解经久不衰,得以深入人心。