月度归档:2012年10月

国人爱说反话:夸奖的背后藏着嘲讽

日期: 09/07/2012 15:42:32

大陆政客属于敏感词,这里不表。以台湾政客为例,譬如说陈水扁是“中国最清廉的总统”,就明显是反话。
It is interesting to find that many positive comments about A Bian are sarcastic. In this test, the positive comments (likes) of Ma Yingjiu seem to be indeed positive.

BUT 下面这段文字骂马英九,可是却以赞美的假言。

机器处理起来,很烦人。

define a topic for馬英九, most negatives are correct, but positives and neutrals are bad. Here are some sample sentences:

• 馬總統干的好! 明天油價95一次漲3.1元,5月漲電費,那6月就改換漲水費吧~最好是行、衣、住、行全來給他大漲,這樣他的荷包才能賺的飽飽的,趁這四年好好大賺一筆,四年做滿後就能安心的退休去了~

• 不好意思我家連張機票錢都買不起,請問哪個國家接受偷渡過去打工的啊?? 馬總統介紹一下好咩? 還參加救國團?

• 喜歡聼好話是人性,不是馬英九特別,問題出在奉承拍馬的人,而這種人會越來越多,官位越來越大,馬英九用人和作風要負責任。

• 廢物 ! 一次漲足又變成漲三次 ? 徵證所稅又變成三前提 ? 馬英九這麼喜歡當小"三"是怎樣 ? 政策到底搞定了嗎? 沒搞定就到處亂放話, 就是最標準的隨地便溺污染國家, 也是廢物政府的最大特徵

• 馬英九是該好好的從H5N2 美牛瘦肉精 都更案法條到現在的油電雙漲 解釋一番 最好是在就職言說時,公開對全國人民說清楚

• 一點都不覺得王建民救了馬英九一命。 馬英九又沒有任何危險,他一個月後才要開始第二個四年,想到這裡他應該又爽到做起伏地挺身來了。

• 那馬英九選前應該講清楚啊 選後汽油每公升漲30元也ok啊.. 重點是選前都凍漲 選後拼命漲...

• 馬英九幹得好 漲吧 反正台灣人就是奴才命啦 沒路用的卡小 才在按回報封鎖別人

• 她馬的愛台灣的馬英九 原來是這樣愛台灣喔 國營企業一直提高薪水 卻在哭夭虧錢 真是的送你一個字 按

• 看到臉書上部份人的留言,真的覺得,嗯,原來真的有人相信馬英九是很有能力,只是有人在扯後腿之類的,喔幹,我好想在他面前大吼「你是哪隻眼睛看到的啊?」

• RT @4F [ 想說一直忘記說 ] 馬英九說,美牛通過後,國人不想吃,可以不吃,不必買,不會有事。 那麻煩一下,大麻也請來開放進口一下謝謝

• 馬總統用了一些蛋頭學者(博士) 蛋頭=豬頭. 因為沒事找事且弄到天怒人怨,怨聲載道!

• 呵,戈巴契夫頭髮最多,海珊最愛和平,賓拉登不愛打仗,陳水扁最清廉,馬英九最有GUTS...

• @octw 若說馬英九是有勇氣遠見的改革者,那真是天大的笑話。 1992年一群人台北火車站前靜坐五天,要求總統直選。 當時的總統,憑藉這股力道直接改成總統直選,而當時的法務部長,反對總統直選,要求維持現狀由國大選出。 那屆總統是李登輝,任法務部長是馬英九。 (via @aoi)

• 王聖人:要馬英九『對的事』就勇敢做,不管別人罵! 台灣人:認同,『目前馬英九最對的事就是下台』。

马英九和陈水扁在社会媒体上的高频情绪性词的词频分析展示了二者截然不同的民间形象:

http://blog.sciencenet.cn/blog-362400-610554.html

科研笔记:究竟好还是不好

绕口令:究竟好还是不好

作者: 立委 (*)
日期: 07/16/2012 18:30:31
谁说iPod好。            【不好】
谁说iPod不好?     【好】
谁不说iPod好。     【好】
谁不说iPod不好?      【不好】
没有谁说iPod好。     【不好】
没有谁说iPod不好。   【好】
没有谁不说iPod好。   【好】
好容易教会了机器,一问,才知道这是小学四年级的题目
本来蛮有de成就感,顿时没了。

【小学家庭作业】

小林差点哭了;小林差点没哭;谁说小林哭了;谁说小林没哭?没有人说小林哭?没有人说小林没哭。

(到底哭了还是没哭?)

http://blog.sciencenet.cn/blog-362400-593189.html

立委统计发现,汉语既适合吹嘘拍马亦长于恶意构陷

词汇统计发现,汉语既适合吹嘘拍马亦长于恶意构陷
作者: 立委 (*)
日期: 05/01/2012 00:49:08

 

日常汉语词汇不但比类似规模的英语日常词汇多出了两倍到三倍的褒义词和贬义词,更有意思的是,这些褒贬词汇中特别针对人的 就多达约1/3(3809/11968)。由于1/3以外的褒贬词汇大多既可以用于物,也可以用于人,汉语所提供的吹拍谀词和构陷咒骂语,远远多于英语。
不怪中文网络社区,硝烟四起,一地鸡毛。吹拍之风不绝,个人崇拜盛行。

# of 描述人的动作和评价的词语总数: 9108
# of 其中带有主观褒贬色彩的词语数: 3809
# of 带有主观褒贬色彩的词语总数: 11968

国家不幸诗家幸,我们做社会媒体舆情分析的人有“福”了。


Is Chinese more sentiment intensive than English?
Interesting finding: that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary. This is based on the Chinese lexicon (50+ k entries) and the English lexicon (44k entries). They are comparable because if we exclude bound morpheme (some character entries) from the Chinese lexicon, we end up with roughly the same size of vocabulary as the comparison basis.
English:   Negative: 2950 Positive: 1511
Chinese: Negative: 6568 Positive: 5400

Does Chinese provide more vocabulary vehicles for attacking people or blowing others' or their own trumpets? 
Seems to be yes from the perspective of the vocabulary size statistics. Here are the facts of the Chinese lexicon for everyday Mandarin:
# of sentiment entries only related to human: 3809
total # of sentiments entries: 11968
total # of all entries (minus bound morphemes not used in Contemporary Mandarin): ~ 48000
See, about 1/4 of the vocabulary is sentiment words, in which 1/3 of the sentiment words are created only for human. Given that the majority of the remaining 2/3 of sentiment vocabulary can also be used for human, we conclude --
CONCLUSION
Indeed in the contemporary Mandarin, there are more words that can be used to express the sentiments for or against a person. Not only that the Chinese language has 2-3 times more sentiment words in the basic vocabulary than those of English, but also that a bigger portion of the sentiment words are created only for praising or attacking people.
NO WONDER the Chinese social media such as weibo.com is full of political struggle and personal attacks.
Quote

Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English

Interesting finding:

that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary.

This is based on the Chinese feature lexicon (50+ k entries) we have just completed manual tagging of for the first pass and the seasoned English feature lexicon (44k entries). They are very comparable in terms of the vocabulary size because the Chinese lexicon contains some single characters which are never used alone in Contemporary Mandarin (bound morphemes). If we exclude these characters, we end up with roughly the same size of vocabulary as the comparison basis.

English:
Negative: 2950
Positive: 1511

Chinese:
Negative: 6568
Positive: 5400

http://blog.sciencenet.cn/blog-362400-565538.html

比起英语,汉语感情更外露还是更炽烈?

Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English

Interesting finding:

that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary.

This is based on the 50+k Chinese feature lexicon we have just completed manual tagging of for the first pass and the seasoned 44k English feature lexicon.

English:
Negative: 2950
Positive: 1511

Chinese:
Negative: 6568
Positive: 5400

http://blog.sciencenet.cn/blog-362400-564434.html

抽取国骂,逐臭呢?

社会媒体比烂,但国骂隐含舆情

已有 449 次阅读 2012-3-20 03:59 |个人分类:立委科普|系统分类:教学心得|关键词:舆情 物理 国骂    推荐到群组

本池有几个是物理出身啊?以后见他们退三舍。都是怎样的炼狱过来的。李剑芒这小子吹嘘小方见他这个师兄躲得远远地,不为别的,就 为他学物理而且敢骂街。

我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少:

国骂:

1.
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
{ [了|的|勒|那|D|DE]? [个]? [逼|b|蛋|旦]}? /* 你 妈 了 个 逼 的 */
[的|滴|得|地|啊|阿]?

2
[真|全|都|这|那|太|就]
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
[的|滴|得|地]?

3.
[我]? [去|滚|草|操|日|干|cao|太阳]
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
{[了|的|勒|那|D|DE]? [个]? [逼|b|蛋|旦]}? /* CAO 你 妈 的 */
[的|滴|得|地|啊|阿 ^F]?

为什么要抓国骂呢?逐臭呢。
殊不知多数国骂隐含着负面评价和抱怨,而这正是我必须抽取的舆情。

http://bbs.wenxuecity.com/joke/388913.html

ZT:学物理 (且会国骂) 的人你伤不起啊!

老子七年前高考一个手贱填了个物理的志愿啊!!!

就尼玛走上物理这条不归路了啊!!!

迎新典礼里院长说学好物理走遍天下都不怕的啊!!!

几年下来老子真特么开了狗眼了神马没见过都不怕啦!!!

你们叫嚣着要上一学期物理要学一年物理期末大物好难的啊!!!

老子大学四年天天都是物理课啊!!!!

电磁学学完了还有电动力学啊!!!

狭义相对论学完了还有广义相对论啊!!!

经典力学学完了还有量子力学啊!!!

量子力学祖师级大牛都特么说了世界上没人懂量子力学的啊!!!有木有的啊!!!

特么数学系的人哭天喊地的微分几何,群论,复变函数,泛函分析,我们特么通通都要学的啊!!!!

特么超对称、超弦老子提都不想提啊!!!!!

导体不好玩要玩超导体的啊!!!!

绝缘体不好玩要玩拓扑绝缘体的啊!!!

时间特么是虚坐标啊!!!

温度特么是虚时间啊!!!

温度特么又是质量的倒数啊!!!!

这样颠覆世界观的,有木有啊!!!

尼玛老子学完场论手表上都不知道怎么看的啊!!!

尼玛倒是告诉我温度计上显示的那是什么啊!!!

三维空间好好的,要玩四维时空的啊!!!!

心情一好还尼玛磕十维十一维的空间啊!!!

光速特么还可以不是常数的啊!!!!

基本粒子特么还有色有味,尼玛色香味俱全特么感情做菜啊!!!!

尼玛说微积分难,你知道你学的是黎曼积分吗!!!

解个微分方程99%都没有解析解的啊都特么是近似的啊!!!

好好的函数为毛要展开成 Taylor 级数、Fourier 级数、Laurent 级数啊!!!

∫dθ 等于零的啊!!!∫dθ θ等于 1 的啊!!!!

神马 Grassmann 代数微分就是积分、积分就是微分的啊!!!!

1/xy 特么写成 ∫da/(ax+(1-a)y)^2 这样子,算起来会更简单的啊!!!!

det A 特么写成 ∫dθ dη exp(θAη) 这样子,算起来很方便的啊!!!!

尼玛给你个泛函路径积分,你积给我看啊你积啊你积啊!!!

尼玛的黑洞啊奇点啊到底是个神马东西啊!!!

尼玛不懂爱因斯坦求和那些公式看过去就是一串 ijk 啊!!!

尼玛一个公式里几十个英文字母希腊字母都不够用的啊!!!!

尼玛一共公式写成分量有四五十个分量一点都不奇怪的啊!!!

标准模型一个作用量要写一页纸的啊!!!还特么是最紧凑的写法啊!!!

微扰展开展个六级十级的你特么算给我看呀,你算呀你算呀!!!

物理的随便个神马变换都是写成一本书的啊!!!

宇称变换,电荷共轭变换,时间反演变换!!!

这三个货特么还能搅和在一起变的啊!!!变毛啊!!!!

Lorentz 变换,加上个平移变换和转动变换,就叫 Poincaré 变换了啊!!!!

升级版还特么有 Super Poincaré 变换的啊!!尼玛命名很开心的啊!!!!

还有保角变换,Fourier 变换,Laplace 变化,Legendre 变换,Bogoliubov 变换,都特么是神马啊!!!!

你有过一天坐在自习室只做出两道题的经历么!!!!

你有过一句“不难证明”从大清早证到图书馆关门都证不出来的经历么!!!

你有过一句“不难算得”算掉尼玛十好几张草稿纸的经历么!!!!!

计算机都能算到死机的东西特么我们要手算的啊!!!!

不难证明,学物理的人你伤不起啊!!!!!

http://blog.sciencenet.cn/blog-362400-549581.html

《立委随笔: 语言学家是怎样炼成的》

我们知道,钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说:语言学家是在 瞎琢磨中炼成的。下面这个故事就是证明。

《立委说文解字:好,好不?》

语言现象中,有逻辑的成分,也有不逻辑的成分:约定俗成是语言的天则,只要语言共同体认可,逻辑不逻辑不是问题。前不久跟朋友聊天就聊到了这样一个现象。

朋友说:你是做NLP(自然语言处理)的,汉语是不是特别难做?

我说:亦难亦不难,要看谁做了。要是我全心去做,那就不难,=)连欧洲语言我都弄服帖了,到了母语我还不能驾轻就熟?(哈,一不留神,吹起牛来了:正做得上瘾呢,想不吹都难。)

朋友于是问:那比如汉语中不逻辑的现象。否定式当作肯定用,譬如 “好不高兴”实际上等价于“好高兴”,你怎么处理?

我笑道:这是个小 case 啦,记住,对于NLP,凡是可枚举的语言现象,统统不是问题(【 成语从来不是问题 】),因为电脑擅长的就是记忆,可枚举的现象全部扔进海量词典即可。具体到你说的这个现象也是如此。我们知道,程度副词(很/太/极/真/顶/忒/极为/非常 等)可以修饰形容词,它的否定式之一加上一个否定词“不”即可,这条规则是逻辑的,compositional 的语义叠加:

肯定式:程度副词 + 形容词
否定式:程度副词 + 不 + 形容词
如:
很高兴 / 很不高兴
非常漂亮 / 非常不漂亮

现在我们遇到了一个反例,就是作为程度副词的 “好” (顺便一提:“好”通常是形容词,但是在口语中也可以做程度副词用),其否定式 “好不” 不遵循上述规则,否定肯定说的都是一个意思(语言真地不讲道理,这肯定否定怎么能一样呢?没办法,语言这个monster本身就是不讲理的事儿,你最好服从,没法反抗)。怎么办呢?简单,就把它放到词典里面去,把“好不”作为“好”的同义词即可,用法是位于形容词前:

肯定式:好 + 形容词 = 好不 + 形容词

(这是所谓词典个性规则,因为这条规则是由两个具体的词“好”/“好不”驱动的)

好开心 = 好不开心
好漂亮 = 好不漂亮
好恶心 = 好不恶心

自以为得意,心想这样的问题太容易了,扔进词典标注清楚就完事:整个的文法规则系统一点儿也不要变动。汉语处理中确实有一批真正的难题(等以后找机会再另文专谈汉语分析的挑战性),但这种封闭类的现象不是。

本来此事就算了结了,我也顺手把“好不”加进了系统,问题似乎解决了。可是我这个人没什么其他爱好,没事就爱瞎琢磨语言。回答完朋友的问题后,一路还在顺着这个问题想。真所谓,天下本无事,就怕瞎琢磨。这一琢磨,问题来了。

上面这个对例外“好不”的解决方案原来还有例外,真是应验了那句老话:对于自然语言,可以说是无一条规则没有例外,无一条例外不是规则。这个例外发生在形容词“容易”前:虽然 好容易 = 好不容易,但是它们却不是肯定的语义:“好不容易见到你”,说的是不容易见到;“好容易见到你”,说的也是不容易。

怎么办呢?easy,记住:凡是个性的、可枚举的现象,对于电脑就不是问题。既然其他形容词与“好不”搭配都没有问题,只有“容易”才有问题,就把这种搭配放进词典不就完了吗:

否定式:好不容易 = 好容易 (语义结论:“容易”的否定式+强调语气)

兵来将挡,水来土囤。我几乎得意了自己的天才。

我于是把“好容易”/“好不容易”请进了词典,这事就这么过去了-- 直到昨天。昨天不知道是什么trigger的,我又鬼使神差地琢磨起来。天下本无事,就怕瞎琢磨。这一琢磨,问题又来了。原来, “好(不)容易” 并不那么容易,也不总是表示否定,如下面这个对比的句例:

否定式:好不容易(才)见到你 = 好容易(才)见到你

肯定式:这个问题好容易啊 ≠ 这个问题好不容易啊。

这是怎么回事呢?原来,“好容易” 有时候强调的是“不容易”,有时候却强调 “容易”。在表示“不容易”的时候,它等价于“好容易”:好容易见到你=好不容易见到你。但是,在表示“容易”的时候,其否定式“好不容易”却不再等价于其肯定式 “好容易”,而是遵从否定式的共同规则:“这个问题好容易啊” 说的是“容易”,而 “这个问题好不容易啊”,说的却是“不容易”(困难)。

怎么办?easy,可枚举现象只要人能分析清楚其用法的条件,扔进词典即可。具体说,这词典的相关个性规则就是:

1. 否定句型:好容易+VP(动词短语)= 好不容易+VP
2. 肯定句型:NP(名词短语)+ 好容易
3. 否定句型:NP + 好不容易

Wow,这么个破词折腾了这么大一圈儿。好在罗嗦是罗嗦,终于搞定了,也实现在正研发中的中文系统里。Everything works perfectly -- until now, at the time of writing this post: 瞎琢磨的毛病又犯了,这次想到的是与“好”有关的另一个个案现象,就是“好坏”,表述如下:

“好” 的一个插曲是,当 “好” 遇到 “坏” 的时候(when a girl meets a boy),在通常的正反形容词并列结构的逻辑或意义之外,e.g【无论】好坏=好或坏;大小(=大还是小)【不是问题】,也一样有程度副词的语义,imagine 你要吃豆腐时你女友的娇嗔:你好坏!

电脑实现起来就是放进专家词典,其词典规则就是:

【“好坏”规则:(1)承继【“好”规则】,好坏=很坏:通常用作谓语;(2)形容词并列结构,常与连词【无论】等搭配,做主句的让步状语】

生命不息,瞎琢磨不止,如果你是语言学家。如果你读到这儿嫌烦了,你就做不了语言学家。这比真假马列主义的试金石还灵。如果你读此文津津有味,而你并不是语言学家,只能对你表达遗憾,本来是语言学家的材料,一定是年轻时不小心入错行了,错过了语言世界的大好风光。

突然想到:汉语怎么这么磨人啊,规则有例外,大例外里面还套着小例外?我们是 native speakers,可能不觉得,要是洋鬼子来学,他们会不会诅咒这个据说是博大精深的东方语言怪物啊?幸好,我们现在有电脑,电脑不懂得抱怨,只要你教它,它就永远记住,讨厌的例外反而是它的拿手好戏。

【后记】为避免“瞎琢磨”引起的误导,特说明如下。本文所谓瞎琢磨,只是强调作为语言学家的语言敏感性。事实上瞎琢磨不仅不是工业开发的“正道”,而且可能引入歧途。笔者见过被语言学家 “过度开发” 的系统,其结果是低效率,系统没必要的庞杂,维护费用高,甚至不堪使用。系统开发的正道应该是数据制导(data-driven,怎样实施数据制导,里面很有讲究):由数据而不是拍脑袋来引导系统开发。绝不能由着语言学家瞎琢磨的性子来。正确的理解是,本文的“瞎琢磨” 自嘲大于自夸,调侃在我们这些“迂腐”的语言学家身上常见到的执着和痴迷。实用系统的规则编制,一定要遵循投入产出的原则,不能事无巨细,面面俱到地穷举。做到这一点的一个办法就是利用机器学习把统计上最有价值的现象粗略筛选提供给语言学家,避免他们走入死胡同,做无用功或低效功。
[附:围脖的有关留言讨论]

鲁鹏一:这不能依靠着人工穷举,而是需要有能够处理句法结构上的机器学习算法,如果有了这一个,才能在机器识别遇到困难时,再编辑规则。这样可以在大语料的基础上,保证规则的完整性和可行性//@算文解字: 规则-专家词典,看上去是个简单有效的办法。但人工穷举,会不会出现低覆盖率的瓶颈?如果有,如何克服 (3月1日 18:25) 

米拉宝鉴:从规则系统角度看,低覆盖率的问题可以由共性规则去解决。专家词典是解决低准确率的问题。语言系统因此成为一个hierarchy。理论上,低覆盖率的问题可以由机器学习去做,这样一个规则与学习的混合系统,可以发挥规则的高精度的长处,也可以发挥学习高覆盖率的长处。实际做起来,这话就长了 (3月1日 21:21)删除| 回复

鲁鹏一:回复@米拉宝鉴:求数据制导的方法或思路,这实际上是现在汉语语言处理的难点,如果能够机器识别句子的结构,确实就可以进行制导了。 (3月1日 21:07) 回复

http://blog.sciencenet.cn/blog-362400-542678.html

13  曹聪 武夷山 谢鑫 金小伟 程智 庄世宇 彭思龙 黄晓磊anonymity bridgeneer tuner sowhathen paulings

发表评论评论 (11 个评论)

删除 回复[11]苏晓路  2012-3-7 09:32
cyc做的不是常识,知网也不是,至少不是最基础的常识,正是因为少了最基础的部分,所以效果不好。

删除 回复[10]苏晓路  2012-3-6 18:53
为什么一定要形式化呢?把上下文的词语按照在语句中的关系组成拓扑网络,用几何方法也可以得到有意义的结果

删除 回复[9]sowhathen  2012-3-3 10:14
谢了,博主的指教。很专业,我不理解,但有点明白意思。
还想请教下:
1。开发的专家辞典的用途,人机对话?实时翻译?。。。
2。澳洲Monash大学开发过一个后现代学术论文的生成器,由于是后现代文章,以博主的解释,只要大约做到第一、第二两步就可以了。博主的专家辞典系统能走到第几步?
3。承上面问题,电脑写作、类似siri模式状况下理解幽默甚至发生幽默、通声传译等是不是还很遥远?
博主回复(2012-3-5 15:00)1. 专家辞典是实施 lexicalist approach 的一个有效而且有力的工具,所谓语法词典化。学界的共识是,lexicalist approach 是NLP的必由之路。
2. 不懂澳洲这个什么学术论文生成器,也不想懂,因为听上去似乎不靠谱。
3. 电脑写作、写诗作为玩具是可以的,拿它揭示写作中可以形式化的部分也许也有一定的意义,但总体上是忽悠嫌疑较大。Siri 则是另一回事,Siri 的本质是自然语言理解用在限定的范围或app内,是一个可以使用的人机交互技术(见我的4篇评论Siri的博文)。是的,理解幽默很遥远。机器同声传译也很遥远。遥远到笔者无法预测的程度。

删除 回复[8]苏晓路  2012-3-3 07:58
语言本身也能形成上下文,只要把整段,整篇综合起来,再加上一些常识知识,出错的概率就明显减小。人脑思考和讲话,所用到的知识是有局部性的,相邻的句子和段落跨度不会太大,这是现在的技术可以处理的。
博主回复(2012-3-5 15:13)整段整片上下文,那叫篇章语言学(discourse study),可以形式化的模型不多,不太好把握。Discourse 这块地上比较靠谱的是所谓 alias association (联接一物多名,譬如 IBM 和 International Business Machines)和 coreference (譬如代词所指的识别),任务的本质是把 entity 在语言中不同表达串起来。因为 entities 是关系和事件的节点,跨句串起来的 entities 可以支持信息的整合。常识则是另一个 monster,以人工智能著称的 cyc 项目做了多年常识及其推理,虽然理论上很有意义,但一直不能真正有规模地实用。 除了 overhead 太大和机器推理的繁琐和error-prone 外,还因为语言处理中的多数现象根本并不需要常识的参与,这一点是有数据支持的。舍近求远,能够用语言学手段解决的问题硬要诉诸常识推理,工程上是可笑的。

删除 回复[7]sowhathen  2012-3-2 21:42
   就这样轻飘飘地一句“例外”,好像让人不大信服啊。这个例外是统计学意义上的,还是。。。?
“在真实语料中没有统计意义”是指这样的例外本身没有统计意义,还是指“这样往下追,超过三层”以后的结果才没有统计意义?
语言的变化似乎有加速的趋势,不但是语料的增减,语法的新创造更活跃。“覅忒时髦哦”(不要太时髦哦)这样的方言进入流行语已经十多年了,赋予语料以特定语境下的新语义正成为一种竞争性的潮流,随着传播手段的日益私人化而高速增长。
相信词库和语法库很有用,也会很方便使用。但是不带人工智能的语境判断的库,毕竟不能算“理想”产品。或许“理想”产品还很遥远,那根本就不是一个关于“语言”的问题。
博主回复(2012-3-3 03:30)最终当然是有统计意义的质量检测 (data quality QA)来确定一个hierarchical 的规则系统应该走到第三步还是第四步就可以停止,感觉上最多不超过四步,在往下的真的是没有统计价值了。可以大体这样来定义“步”:

1.  第一步是建立在词类(名形动副等)基础上的共性规则;
2.  第二步是建立在子类(subcat)基础上的句型规则
3.  第三步是单词驱动的一条腿走路的个性规则:所谓一条腿走路就是驱动词是一个具体的词,但规则中的替他成分依然是对词类或者子类的限定:譬如, 好/好不 + 形容词 这样的规则
4. 第四步是单词驱动的多条腿走路的个性规则或者成语搭配:所谓多条腿走路就是规则中的成分至少有两个以上是具体的词,而不是类别,包括多词“成语”(刻舟求剑,不管三七二十一,好不容易),也包括固定搭配,如 吃+(NP)+豆腐。

走到第四步的专家辞典,语言学上差不多就到头了。至于超出语言学的情境或者其他手段(如表情,如知识背景和常识推理),它们也可以影响语义(如有些讽刺、双关、正话反说等),但那是另一层次的事情了。统计上大多可以忽略。即便统计上不能忽略,形式化的挑战性往往超出目前可以实现的程度。

删除 回复[6]sowhathen  2012-3-2 18:19
请教:
小狗看见我拿根骨头,好不高兴跑过来,尾巴直摇。
等到走近一看发现骨头是泥巴做的,弄得它好不高兴,尾巴也耷拉下来了。
============
第一个好不高兴是好高兴;第二个好不高兴是很不高兴。尾巴直摇是尾巴直立+摇动,还是尾巴一直摇。
或者:小明有个怪脾气-天气不好不高兴。当然很口语,口语排除?
博主回复(2012-3-2 18:45)哈哈。语言中的例外现象,可以这么一路追下去,特别是创造了一定语境以后。搞过realife 系统开发的人都有这个体会,这样往下追,超过三层,就没有意义了。不仅人和机器都会抓狂(难以维护),更重要的是在真实语料中没有统计意义,换句话说,做了白做。一句话,还是要数据制导,而不是追求所谓情景语义,走入死胡同。所以语言学家的 “瞎琢磨” 完全可能成为开发的障碍,而不是优势。

删除 回复[5]苏晓路  2012-3-1 11:30
脱离上下文,研究纯语义,属于缘木求鱼。
没有具体场景,单纯只是语言,连人脑的智能有时候也会搞错。
和具体场景结合起来,哪怕只是孤立的几个词,完全没有语法,也能把意思表达清楚,没有歧义。
语言只是沟通的工具,脱离了沟通研究纯语言没有意义。
博主回复(2012-3-1 21:12)讲的是语言系统的开发,不是纯语义研究。你所谓的上下文,已经超出了目前可以形式化开发的限度。easier said than done,窃以为还是从看得见摸得着的(tractable)现象着手比较靠谱。

删除 回复[4]庄世宇  2012-3-1 10:37
对英汉句子对译的难题有何看法?
博主回复(2012-3-2 18:51)问题太泛,无从回答。机器翻译是NLP中最古老,也是最广泛的应用。由于这个领域的海量双语对照语料库的存在,机器学习的方法取得了突破性进展,传统的规则系统退居其次。Google Translate 的广泛应用就是例证。

删除 回复[3]程智  2012-3-1 10:35
表面上看问题是解决了,但哪天人的习惯一改,你这个字典也要改了。
博主回复(2012-3-1 20:43)那当然。人还要活到老学到老,怎么可能做出一个一劳永逸无需改变的系统呢?系统当然是需要不断更新的,连操作系统还不断为新发现的安全漏洞打补丁呢。

另外,要说明的是,所谓“瞎琢磨”应该是自嘲大于自夸,自嘲语言学家常见的迂腐和执着。实际上,瞎琢磨是很容易走进死胡同的,希望不要造成对年轻人的误导。实用系统的规则编制,一定要遵循投入产出的原则,不能事无巨细,面面俱到地穷举。做到这一点的一个办法就是利用机器学习把统计上最有价值的现象粗略筛选提供给语言学家,避免他们走入死胡同,做无用功或低效功。所谓瞎琢磨,只是强调作为语言学家的语言敏感性的重要,并不是工业开发的“正道”。

删除 回复[2]anonymity  2012-3-1 09:55
嗐,昨晚糊涂了,是很简单的事儿。

删除 回复[1]anonymity  2012-3-1 01:10
某某队+大胜/大败+某某队,怎么解决?
记得英语里也有类似的一个说法,忘了怎么说的了。
博主回复(2012-3-1 08:18)没问题,专家词典(expert lexicon)里面个性规则如下:
1. 带宾语的时候,二者是同义词,“大胜”=“大败”:【火星队】大胜/大败 火箭队
2. 做定语的时候,二者则是反义词:大胜的火星队;大败的火箭队

专家词典系词汇驱动的个性规则集合。

【立委科普:Subcat 及句型】

理呆说法:“只要找到一个及物反例就可以推翻其不及物的说法”。

及物动词、不及物动词、双及物动词等等叫做  subcat, 是动词大类里面的子类标识(subcategory)。
如果只要找到一个及物反例就否 定不及物,那么就不存在 不及物动词 的子类。比如,英语的 walk / go 是典型的不及物动词,但是就有如下反例:

He walks his dog every morning.

Go your own way.

这样的话,及物不及物的区别就没有了,那还分子类做什么?

语言学家给词分类,又进一步给动词分子类,是为了归纳句型,parse 语句的方便。如果因为一个反例就不做分类,语言中的分类几乎寸步难行。这样一来,任何概括性规则都写不了,任何语法都玩完儿。语言只能被视为完全无章可循不可理解的怪物。

语言现象中反例太多了,因此才有把文法建立成个性规则和共性规则的层级体系(hierarchy)的设计思想。共性规则靠的就是分类,允许反例。个性规则对付反例,让它 override 共性规则。

所有语言都有这种子类(subcat)。细说起来有两类句型分类:一类是逻辑上的,一类是语言的。
日期: 02/23/2012 19:14:02
逻辑上说,一个谓词需要几个 arguments,是由这个谓词的意义决定的,譬如 “哭/笑” 这样的谓词概念,需要一个人的实体(assuming 动物以及其他实体不能哭笑)作为施事 argument 来表达 “谁(1)哭了笑了”,所谓不及物谓词。对“人”的要求,是所谓语义上的 selection restriction
“爱/恨” 这样的谓词需要两个 arguments (所谓及物谓词),前者是人,后者没什么限制,表达 “谁(1) 爱/恨 谁/什么(2)了“。

还有其他 subcats。“给/赠与” 这样的谓词,需要三个 arguments,表达 “谁(1) 把 什么(2) 给/赠与 谁(3)了”,(1)和(3)是人或者机构实体,2 通常是物件。

“认为/声明” 这样的谓词,需要两个 arguments,其中一个是施事实体,表达 “谁(1)的认为/声明”,要求的是人或者机构,第二个 argument 要求一个 statement (嵌套的谓词结构,相当于语言中的宾语子句),表达 “认为/声明的内容(2)”。

这种逻辑上的谓词子类的区分是语言通用的(universal),因为它的根基是概念及其意义的完整性:谓词加上arguments 构成作为 statement 语义核心(所谓 argument structure),核心外围才是时间、地点、条件等外围的随机性语义细节。

以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns(句型)。到了语言这个层面,辞典中一个动词的句型子类可以标示以下的subcategorization 的信息(及物 vt / 不及物 vi 只是其简化标识,牛津词典曾经用20多个子类标注每个词条的subcats):

这些 arguments 要求的语言形式(名词短语、介词短语还是还是动词短语?名词是主格还是宾格?介词短语要的是什么介词?每个 argument 所处的位置,语序自由还是固定,等等)。

与逻辑层不一样,subcat 的句型,是针对各个语言的,譬如一个语言用名词或者词尾(如宾格词尾)表达的 argument,到另一个语言可能要借助介词。如:You should serve us (宾格)/ 你要为我们服务(借助介词“为”)。

正是词典中给出的这种子类信息的标注决定一个词可能的潜在句型用法。因此,subcat 信息的完备直接决定了一个parser的质量,是语言研究中非常关键的预示信息。逻辑和语义虽然是人类共同的,subcat 信息各个语言却不同,后者是对前者的语言学映射。 分别以英语和汉语为例,下面把上述逻辑层的示例化为语言层的subcat信息,来揭示对语言形式的要求及其句型的不同:

英语的 cry 是不及物动词(vi),具体说来其 subcat 信息如下:cry 需要一个名词短语(NP)做主语,词序上这个主语通常位于 cry 的前面(词序也是语言形式),如果该名词短语是代词,则需要使用主格形式。
汉语的 “哭”的 subcat 信息与英语类似,也需要一个名词短语做主语,词序上这个主语通常位于 cry 的前面,但是汉语的主语代词没有“格”的形式要求,因为汉语没有格这个语法范畴。
英语的 love 是及物动词(vt),它连接主语和宾语,及物动词的subcat 信息涵盖了主动语态的句型和被动语态的句型两大类。前者的基本句型是主谓宾(SVO)结构:即名词短语位于 love 的前面做主语(如果主语是代词,则需要主格 如 he/she),位于 love 的后面的名词短语做宾语(如果是代词,则要求宾格 如 him/her):He loves her. 这是英语及物动词主动句型的要求。同样的动词还有一系列被动句型的 subcat 要求,除了 love 要转换成被动语态形式的动词以外(如 is loved / has been loved/...), 还要求使用介词 by 来引出原主动语态的主语(介词短语PP引出的逻辑主语),语法主语却变成了逻辑宾语,这就是我么所熟知的主动举行到被动句型的英语转换式:He loves her --> She is loved by him.
汉语的 “爱” 是及物动词,它也连接主语和宾语,但是 subcat 所要求的语言形式与英语不同。基本句型“主谓宾”结构,词序虽然与英语相同,但没有代词主格宾格的区分:他 爱 她【爱得很久了】。汉语及物动词第二个句型是所谓“把字句”,要求在动词前主语后,用介词“把”引出逻辑宾语:他 把 她 爱【得很久了】 。相对于英语被动语态句型的是汉语及物动词的所谓“被字句”:她 被 (他) 爱 【得很久了】。
下面说明从简,懂英语和汉语的人都很熟悉这些 subcat 句型之间的转换,请注意英语汉语之间的异同:
Subcat patterns for the ditransitive verb “give”:(1) NP1 + give + NP2 + NP3 (e.g. She gives him a hug); (2) NP1 + give + NP3 + PP(to+NP2): She gives a hug to him; (3) NP2 + give[PASSIVE] + NP3 + PP(by+NP1): He is given a hug (by her); (4) NP3 + give[PASSIVE]+PP(to+NP2) + PP(by+NP1): A hug is given to him (by her).
汉语的动词 “给” 的双宾语结构的句型转换如下:(1)基本句型:他 给了 她 一个拥抱;(2)把字句:他 把 一个拥抱 给了 她;(3)被字句: 一个拥抱 (被 他) 给了 她。
Subcat pattern for the verb “think”:(1) NP + think + that-clause (e.g. She thinks [that she loves him]);  (2) "that" is allowed to be omitted, hence: She thinks [she loves him].
汉语的动词 “认为” 的句型与英语类似,但是没有从句引导词 that:他 认为 【他 爱 她】

逻辑到语言的mapping不是简单的对应,譬如,在逻辑上,语言中的  like 和 please 基本是一个概念,这个概念是及物谓词,需要两个 arguments,可是在语言中,这两个arguments 的指向由于不同的动词选择,可以正好相反:


I like iPod

等价于

iPod pleases me.  (这种说法英语不常见,但是其他欧洲语言常见)

两种不同的语言表达方式,说的都是人和一个物体的关系,是那个物体带给人心理上的愉悦感受。
对于学习语言,熟悉这些句型信息也非常有用。令人惊异的是,很多人学了多年英语居然没有对动词句型的subcat 的系统认识,语言实践没有上升到语言学理论的高度。我以前教英语的时候,经常要求学生看牛津词典或者朗曼词典后面的句型附录(朗曼的分类与牛津略有不同,分得更细),务必熟悉这些句型的概念,然后在翻阅词典时候注意其标注。

一个词(不仅是动词,还包括形容词和名词)经常分成 n 个义项,每个义项下的 subcat 分类标注往往不同,回去翻翻词典就看到了。

拉拉杂杂,今天就先说到这里。随笔写来,条理性不够,先凑合看吧。(也不能写得太好,太好了若干年后怕有现代红卫兵质疑有代笔,受网络大字报的轰炸,不值。)

http://blog.sciencenet.cn/blog-362400-540926.html

【轻松一刻:素瞌睡】

不是那根萝卜,不做那个葱

日期: 06/30/2012 01:58:08


改着系统,一阵犯困就迷糊过去了,n分钟后糊里糊涂说这两句,又醒来了。

醒来前好像某人说我的系统是 canned 系统,我说 can 你个球啊,我这是开放系统,你随便试,任何句子,只要是汉字就成。

那人睁大双眼,说:是么?

我哼了一下,丢下这两句。

此记。

MD,走火入魔了,连做梦说的都是自造的世界文。为了充好汉,不做toy,不屑于can,随手把上面的句子feed给系统做自动结构分析,实录如下。


曰:看不懂。

我也看不懂,半梦半醒中的胡言乱语,可做心理学研究素材
虽然看不大懂,毕竟还大体算是汉语,还可以有结构分析,这就是语言学的魅力    - 立委     06/30 02:25     (287180)

有曰
结论:素瞌睡。

http://blog.sciencenet.cn/blog-362400-587506.html

方韩大战的舆情自动分析:小方的评价比韩少差太多了

非常初步的有限范围试验表明,方韩大战(其实也没有真大战过, 基本是小方的单方面攻击 ,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动,没有参杂任何人工干预,比较的结论对于进入视野的数据应该是客观的。因为即便系统有缺陷,那对于所比双方及其数据也是一视同仁(黑)的。

国内最火的新浪微博、腾讯微信等暂时 out of reach,很遗憾。

小方评价比韩寒低太多了
作者: 立委
日期: 09/06/2012 21:21:27
所谓 net sentiment 大体上就是正面评价减去负面 评价的一个指标,小方是大负数,零下41度,小韩略大于零,毁誉参半。哈哈

再看各位的褒贬评价语的分布。

MD, 要是新浪微薄能算进来就好了


Download

方寒大战高频情绪性词的词频分析
日期: 09/20/2012 17:48:03
骂小方的前15高频情绪性用词的词频分析发现“不正常”高居首位:

(方)不正常 (16.9%)
不喜欢 (方) (14.3%)
反对(方) (13.0%)
(方)更烂 (9.1%)
(方)讨厌 (7.8%)
难 (6.5%)
不支持(方) (5.2%)
(方)果然够下贱 (3.9%)

骂韩少的前15高频情绪性用词的词频分析:第一位是“差”,第二位是“骗子”

(韩)差 (20.0%)
(韩)骗子 (17.9%)
(韩)不尊重 (14.3%)
不相信(韩) (8.6%)
不喜欢(韩) (5.7%)
(韩)造假 (5.0%)

问:你的机器看得懂谁是撒旦海珊吗?
能,社会评价度低于零下70度是人民公敌,天怒人怨,等价于撒旦。:=)
小方还好,才零下41度。
系统里面有一个对译词表
台湾译名与大陆译名不一致的在这里统一:

萨达姆:撒旦海珊 // Saddam Hussein
萨芬:沙芬 // Marat Safin
舒马赫:舒麥加 舒馬克 // Michael Schumacher
迈克尔:米高 麥克 // Michael Schumacher
斯大林:史達林 史太林 // Stalin
托洛茨基:托洛斯基 // Trotsky
......

http://blog.sciencenet.cn/blog-362400-610560.html

舆情自动分析表明,谷歌的社会评价度高出百度一倍

拖了这么久,中文系统的初步试验终于开始

日期: 09/06/2012 21:04:35

 

本来核心系统的开发最难,最耗时间 ,结果在真实生活中,工程架构、存贮和搞定content这些纯技术性操作性环节往往也会成为时间瓶颈,怪也不怪。

这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。

I did a test on comparing Google and Baidu for side-by-side view of likes, dislikes, net sentiments, sources, etc.

They make sense, even with such limited data.

So to summarize the different opinions of these two search giants from social media in Chinese:

1. Google's net sentiment is very high, around 70 while Baidu's net sentiment is only 35: 谷歌社会评价度高出百度整整一倍!

2. most striking likes for Google are Cooperative, Innovation, Updated, Optimized and Robust. The likes for Baidu are optimized, updated, and new.

The dislikes of Google are Monopoly, abandoning Android, cannot open it (that is in fact not a problem of Google, it is Chinese Great Wall's problem). The dislikes of Baidu are unstable, drop, and misleading.

There are also a few obvious bugs too, like "very easy" misclassified as dislikes.

http://blog.sciencenet.cn/blog-362400-610567.html