
绕口令:究竟好还是不好
谁说iPod不好? 【好】
谁不说iPod好。 【好】
谁不说iPod不好? 【不好】
没有谁说iPod不好。 【好】
没有谁不说iPod好。 【好】
【小学家庭作业】
绕口令:究竟好还是不好
【小学家庭作业】
# of 描述人的动作和评价的词语总数: 9108
# of 其中带有主观褒贬色彩的词语数: 3809
# of 带有主观褒贬色彩的词语总数: 11968
国家不幸诗家幸,我们做社会媒体舆情分析的人有“福”了。
Quote
Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English
Interesting finding:
that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary.
This is based on the Chinese feature lexicon (50+ k entries) we have just completed manual tagging of for the first pass and the seasoned English feature lexicon (44k entries). They are very comparable in terms of the vocabulary size because the Chinese lexicon contains some single characters which are never used alone in Contemporary Mandarin (bound morphemes). If we exclude these characters, we end up with roughly the same size of vocabulary as the comparison basis.
English:
Negative: 2950
Positive: 1511Chinese:
Negative: 6568
Positive: 5400
Chinese is a more sentiment-intensive language than English?? FW: Counts of sentiment words in Chinese and English
Interesting finding:
that Chinese more than doubles the negative words and more than triples the positive words in comparison with the English vocabulary.
This is based on the 50+k Chinese feature lexicon we have just completed manual tagging of for the first pass and the seasoned 44k English feature lexicon.
English:
Negative: 2950
Positive: 1511
Chinese:
Negative: 6568
Positive: 5400
已有 449 次阅读 2012-3-20 03:59 |个人分类:立委科普|系统分类:教学心得|关键词:舆情 物理 国骂 推荐到群组
我感兴趣的是其中的社会媒体的国骂变种。前两天写了个regexp,不知道能抓住它多少:
国骂:
1.
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
{ [了|的|勒|那|D|DE]? [个]? [逼|b|蛋|旦]}? /* 你 妈 了 个 逼 的 */
[的|滴|得|地|啊|阿]?
2
[真|全|都|这|那|太|就]
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
[的|滴|得|地]?
3.
[我]? [去|滚|草|操|日|干|cao|太阳]
[他|她|你|尼|泥]
[妈|娘|喵|玛|骂|马|妹|姐|大爷|奶奶|妈妈]
{[了|的|勒|那|D|DE]? [个]? [逼|b|蛋|旦]}? /* CAO 你 妈 的 */
[的|滴|得|地|啊|阿 ^F]?
为什么要抓国骂呢?逐臭呢。
殊不知多数国骂隐含着负面评价和抱怨,而这正是我必须抽取的舆情。
http://bbs.wenxuecity.com/joke/388913.html
ZT:学物理 (且会国骂) 的人你伤不起啊!
就尼玛走上物理这条不归路了啊!!!
迎新典礼里院长说学好物理走遍天下都不怕的啊!!!
几年下来老子真特么开了狗眼了神马没见过都不怕啦!!!
你们叫嚣着要上一学期物理要学一年物理期末大物好难的啊!!!
老子大学四年天天都是物理课啊!!!!
电磁学学完了还有电动力学啊!!!
狭义相对论学完了还有广义相对论啊!!!
经典力学学完了还有量子力学啊!!!
量子力学祖师级大牛都特么说了世界上没人懂量子力学的啊!!!有木有的啊!!!
特么数学系的人哭天喊地的微分几何,群论,复变函数,泛函分析,我们特么通通都要学的啊!!!!
特么超对称、超弦老子提都不想提啊!!!!!
导体不好玩要玩超导体的啊!!!!
绝缘体不好玩要玩拓扑绝缘体的啊!!!
时间特么是虚坐标啊!!!
温度特么是虚时间啊!!!
温度特么又是质量的倒数啊!!!!
这样颠覆世界观的,有木有啊!!!
尼玛老子学完场论手表上都不知道怎么看的啊!!!
尼玛倒是告诉我温度计上显示的那是什么啊!!!
三维空间好好的,要玩四维时空的啊!!!!
心情一好还尼玛磕十维十一维的空间啊!!!
光速特么还可以不是常数的啊!!!!
基本粒子特么还有色有味,尼玛色香味俱全特么感情做菜啊!!!!
尼玛说微积分难,你知道你学的是黎曼积分吗!!!
解个微分方程99%都没有解析解的啊都特么是近似的啊!!!
好好的函数为毛要展开成 Taylor 级数、Fourier 级数、Laurent 级数啊!!!
∫dθ 等于零的啊!!!∫dθ θ等于 1 的啊!!!!
神马 Grassmann 代数微分就是积分、积分就是微分的啊!!!!
1/xy 特么写成 ∫da/(ax+(1-a)y)^2 这样子,算起来会更简单的啊!!!!
det A 特么写成 ∫dθ dη exp(θAη) 这样子,算起来很方便的啊!!!!
尼玛给你个泛函路径积分,你积给我看啊你积啊你积啊!!!
尼玛的黑洞啊奇点啊到底是个神马东西啊!!!
尼玛不懂爱因斯坦求和那些公式看过去就是一串 ijk 啊!!!
尼玛一个公式里几十个英文字母希腊字母都不够用的啊!!!!
尼玛一共公式写成分量有四五十个分量一点都不奇怪的啊!!!
标准模型一个作用量要写一页纸的啊!!!还特么是最紧凑的写法啊!!!
微扰展开展个六级十级的你特么算给我看呀,你算呀你算呀!!!
物理的随便个神马变换都是写成一本书的啊!!!
宇称变换,电荷共轭变换,时间反演变换!!!
这三个货特么还能搅和在一起变的啊!!!变毛啊!!!!
Lorentz 变换,加上个平移变换和转动变换,就叫 Poincaré 变换了啊!!!!
升级版还特么有 Super Poincaré 变换的啊!!尼玛命名很开心的啊!!!!
还有保角变换,Fourier 变换,Laplace 变化,Legendre 变换,Bogoliubov 变换,都特么是神马啊!!!!
你有过一天坐在自习室只做出两道题的经历么!!!!
你有过一句“不难证明”从大清早证到图书馆关门都证不出来的经历么!!!
你有过一句“不难算得”算掉尼玛十好几张草稿纸的经历么!!!!!
计算机都能算到死机的东西特么我们要手算的啊!!!!
不难证明,学物理的人你伤不起啊!!!!!
我们知道,钢铁战士保尔柯察金是在残酷的革命斗争中炼成的。我要说:语言学家是在 瞎琢磨中炼成的。下面这个故事就是证明。
《立委说文解字:好,好不?》
语言现象中,有逻辑的成分,也有不逻辑的成分:约定俗成是语言的天则,只要语言共同体认可,逻辑不逻辑不是问题。前不久跟朋友聊天就聊到了这样一个现象。
朋友说:你是做NLP(自然语言处理)的,汉语是不是特别难做?
我说:亦难亦不难,要看谁做了。要是我全心去做,那就不难,=)连欧洲语言我都弄服帖了,到了母语我还不能驾轻就熟?(哈,一不留神,吹起牛来了:正做得上瘾呢,想不吹都难。)
朋友于是问:那比如汉语中不逻辑的现象。否定式当作肯定用,譬如 “好不高兴”实际上等价于“好高兴”,你怎么处理?
我笑道:这是个小 case 啦,记住,对于NLP,凡是可枚举的语言现象,统统不是问题(【 成语从来不是问题 】),因为电脑擅长的就是记忆,可枚举的现象全部扔进海量词典即可。具体到你说的这个现象也是如此。我们知道,程度副词(很/太/极/真/顶/忒/极为/非常 等)可以修饰形容词,它的否定式之一加上一个否定词“不”即可,这条规则是逻辑的,compositional 的语义叠加:
现在我们遇到了一个反例,就是作为程度副词的 “好” (顺便一提:“好”通常是形容词,但是在口语中也可以做程度副词用),其否定式 “好不” 不遵循上述规则,否定肯定说的都是一个意思(语言真地不讲道理,这肯定否定怎么能一样呢?没办法,语言这个monster本身就是不讲理的事儿,你最好服从,没法反抗)。怎么办呢?简单,就把它放到词典里面去,把“好不”作为“好”的同义词即可,用法是位于形容词前:
肯定式:好 + 形容词 = 好不 + 形容词
好开心 = 好不开心
好漂亮 = 好不漂亮
好恶心 = 好不恶心
自以为得意,心想这样的问题太容易了,扔进词典标注清楚就完事:整个的文法规则系统一点儿也不要变动。汉语处理中确实有一批真正的难题(等以后找机会再另文专谈汉语分析的挑战性),但这种封闭类的现象不是。
本来此事就算了结了,我也顺手把“好不”加进了系统,问题似乎解决了。可是我这个人没什么其他爱好,没事就爱瞎琢磨语言。回答完朋友的问题后,一路还在顺着这个问题想。真所谓,天下本无事,就怕瞎琢磨。这一琢磨,问题来了。
上面这个对例外“好不”的解决方案原来还有例外,真是应验了那句老话:对于自然语言,可以说是无一条规则没有例外,无一条例外不是规则。这个例外发生在形容词“容易”前:虽然 好容易 = 好不容易,但是它们却不是肯定的语义:“好不容易见到你”,说的是不容易见到;“好容易见到你”,说的也是不容易。
怎么办呢?easy,记住:凡是个性的、可枚举的现象,对于电脑就不是问题。既然其他形容词与“好不”搭配都没有问题,只有“容易”才有问题,就把这种搭配放进词典不就完了吗:
否定式:好不容易 = 好容易 (语义结论:“容易”的否定式+强调语气)
兵来将挡,水来土囤。我几乎得意了自己的天才。
我于是把“好容易”/“好不容易”请进了词典,这事就这么过去了-- 直到昨天。昨天不知道是什么trigger的,我又鬼使神差地琢磨起来。天下本无事,就怕瞎琢磨。这一琢磨,问题又来了。原来, “好(不)容易” 并不那么容易,也不总是表示否定,如下面这个对比的句例:
否定式:好不容易(才)见到你 = 好容易(才)见到你
肯定式:这个问题好容易啊 ≠ 这个问题好不容易啊。
这是怎么回事呢?原来,“好容易” 有时候强调的是“不容易”,有时候却强调 “容易”。在表示“不容易”的时候,它等价于“好容易”:好容易见到你=好不容易见到你。但是,在表示“容易”的时候,其否定式“好不容易”却不再等价于其肯定式 “好容易”,而是遵从否定式的共同规则:“这个问题好容易啊” 说的是“容易”,而 “这个问题好不容易啊”,说的却是“不容易”(困难)。
怎么办?easy,可枚举现象只要人能分析清楚其用法的条件,扔进词典即可。具体说,这词典的相关个性规则就是:
1. 否定句型:好容易+VP(动词短语)= 好不容易+VP
2. 肯定句型:NP(名词短语)+ 好容易
3. 否定句型:NP + 好不容易
Wow,这么个破词折腾了这么大一圈儿。好在罗嗦是罗嗦,终于搞定了,也实现在正研发中的中文系统里。Everything works perfectly -- until now, at the time of writing this post: 瞎琢磨的毛病又犯了,这次想到的是与“好”有关的另一个个案现象,就是“好坏”,表述如下:
“好” 的一个插曲是,当 “好” 遇到 “坏” 的时候(when a girl meets a boy),在通常的正反形容词并列结构的逻辑或意义之外,e.g【无论】好坏=好或坏;大小(=大还是小)【不是问题】,也一样有程度副词的语义,imagine 你要吃豆腐时你女友的娇嗔:你好坏!
电脑实现起来就是放进专家词典,其词典规则就是:
【“好坏”规则:(1)承继【“好”规则】,好坏=很坏:通常用作谓语;(2)形容词并列结构,常与连词【无论】等搭配,做主句的让步状语】
生命不息,瞎琢磨不止,如果你是语言学家。如果你读到这儿嫌烦了,你就做不了语言学家。这比真假马列主义的试金石还灵。如果你读此文津津有味,而你并不是语言学家,只能对你表达遗憾,本来是语言学家的材料,一定是年轻时不小心入错行了,错过了语言世界的大好风光。
突然想到:汉语怎么这么磨人啊,规则有例外,大例外里面还套着小例外?我们是 native speakers,可能不觉得,要是洋鬼子来学,他们会不会诅咒这个据说是博大精深的东方语言怪物啊?幸好,我们现在有电脑,电脑不懂得抱怨,只要你教它,它就永远记住,讨厌的例外反而是它的拿手好戏。
鲁鹏一:回复@米拉宝鉴:求数据制导的方法或思路,这实际上是现在汉语语言处理的难点,如果能够机器识别句子的结构,确实就可以进行制导了。 (3月1日 21:07) 回复
http://blog.sciencenet.cn/blog-362400-542678.html
1. 第一步是建立在词类(名形动副等)基础上的共性规则;
2. 第二步是建立在子类(subcat)基础上的句型规则
3. 第三步是单词驱动的一条腿走路的个性规则:所谓一条腿走路就是驱动词是一个具体的词,但规则中的替他成分依然是对词类或者子类的限定:譬如, 好/好不 + 形容词 这样的规则
4. 第四步是单词驱动的多条腿走路的个性规则或者成语搭配:所谓多条腿走路就是规则中的成分至少有两个以上是具体的词,而不是类别,包括多词“成语”(刻舟求剑,不管三七二十一,好不容易),也包括固定搭配,如 吃+(NP)+豆腐。
走到第四步的专家辞典,语言学上差不多就到头了。至于超出语言学的情境或者其他手段(如表情,如知识背景和常识推理),它们也可以影响语义(如有些讽刺、双关、正话反说等),但那是另一层次的事情了。统计上大多可以忽略。即便统计上不能忽略,形式化的挑战性往往超出目前可以实现的程度。
另外,要说明的是,所谓“瞎琢磨”应该是自嘲大于自夸,自嘲语言学家常见的迂腐和执着。实际上,瞎琢磨是很容易走进死胡同的,希望不要造成对年轻人的误导。实用系统的规则编制,一定要遵循投入产出的原则,不能事无巨细,面面俱到地穷举。做到这一点的一个办法就是利用机器学习把统计上最有价值的现象粗略筛选提供给语言学家,避免他们走入死胡同,做无用功或低效功。所谓瞎琢磨,只是强调作为语言学家的语言敏感性的重要,并不是工业开发的“正道”。
理呆说法:“只要找到一个及物反例就可以推翻其不及物的说法”。
He walks his dog every morning.
这样的话,及物不及物的区别就没有了,那还分子类做什么?
语言学家给词分类,又进一步给动词分子类,是为了归纳句型,parse 语句的方便。如果因为一个反例就不做分类,语言中的分类几乎寸步难行。这样一来,任何概括性规则都写不了,任何语法都玩完儿。语言只能被视为完全无章可循不可理解的怪物。
语言现象中反例太多了,因此才有把文法建立成个性规则和共性规则的层级体系(hierarchy)的设计思想。共性规则靠的就是分类,允许反例。个性规则对付反例,让它 override 共性规则。
还有其他 subcats。“给/赠与” 这样的谓词,需要三个 arguments,表达 “谁(1) 把 什么(2) 给/赠与 谁(3)了”,(1)和(3)是人或者机构实体,2 通常是物件。
“认为/声明” 这样的谓词,需要两个 arguments,其中一个是施事实体,表达 “谁(1)的认为/声明”,要求的是人或者机构,第二个 argument 要求一个 statement (嵌套的谓词结构,相当于语言中的宾语子句),表达 “认为/声明的内容(2)”。
这种逻辑上的谓词子类的区分是语言通用的(universal),因为它的根基是概念及其意义的完整性:谓词加上arguments 构成作为 statement 语义核心(所谓 argument structure),核心外围才是时间、地点、条件等外围的随机性语义细节。
以上的逻辑谓词子类表现在不同语言,就是语言学上的 verb subcategories 及其 patterns(句型)。到了语言这个层面,辞典中一个动词的句型子类可以标示以下的subcategorization 的信息(及物 vt / 不及物 vi 只是其简化标识,牛津词典曾经用20多个子类标注每个词条的subcats):
这些 arguments 要求的语言形式(名词短语、介词短语还是还是动词短语?名词是主格还是宾格?介词短语要的是什么介词?每个 argument 所处的位置,语序自由还是固定,等等)。
正是词典中给出的这种子类信息的标注决定一个词可能的潜在句型用法。因此,subcat 信息的完备直接决定了一个parser的质量,是语言研究中非常关键的预示信息。逻辑和语义虽然是人类共同的,subcat 信息各个语言却不同,后者是对前者的语言学映射。 分别以英语和汉语为例,下面把上述逻辑层的示例化为语言层的subcat信息,来揭示对语言形式的要求及其句型的不同:
逻辑到语言的mapping不是简单的对应,譬如,在逻辑上,语言中的 like 和 please 基本是一个概念,这个概念是及物谓词,需要两个 arguments,可是在语言中,这两个arguments 的指向由于不同的动词选择,可以正好相反:
一个词(不仅是动词,还包括形容词和名词)经常分成 n 个义项,每个义项下的 subcat 分类标注往往不同,回去翻翻词典就看到了。
日期: 06/30/2012 01:58:08
醒来前好像某人说我的系统是 canned 系统,我说 can 你个球啊,我这是开放系统,你随便试,任何句子,只要是汉字就成。
那人睁大双眼,说:是么?
我哼了一下,丢下这两句。
此记。
MD,走火入魔了,连做梦说的都是自造的世界文。为了充好汉,不做toy,不屑于can,随手把上面的句子feed给系统做自动结构分析,实录如下。
曰:看不懂。
我也看不懂,半梦半醒中的胡言乱语,可做心理学研究素材。 虽然看不大懂,毕竟还大体算是汉语,还可以有结构分析,这就是语言学的魅力 - 立委 06/30 02:25 (287180) |
非常初步的有限范围试验表明,方韩大战(其实也没有真大战过, 基本是小方的单方面攻击 ,从代笔到身高,无所不用其极,加上双方粉丝的大打出手)的舆情自动分析结果是:小方的评价比韩少差太多了。这次试验的数据来源主要是 Twitter,天涯论坛、百度贴吧等,时间跨度大约半年,今年四月到九月。整个过程全自动,没有参杂任何人工干预,比较的结论对于进入视野的数据应该是客观的。因为即便系统有缺陷,那对于所比双方及其数据也是一视同仁(黑)的。
再看各位的褒贬评价语的分布。
MD, 要是新浪微薄能算进来就好了
(方)不正常 (16.9%)
不喜欢 (方) (14.3%)
反对(方) (13.0%)
(方)更烂 (9.1%)
(方)讨厌 (7.8%)
难 (6.5%)
不支持(方) (5.2%)
(方)果然够下贱 (3.9%)
骂韩少的前15高频情绪性用词的词频分析:第一位是“差”,第二位是“骗子”
(韩)差 (20.0%)
(韩)骗子 (17.9%)
(韩)不尊重 (14.3%)
不相信(韩) (8.6%)
不喜欢(韩) (5.7%)
(韩)造假 (5.0%)
萨达姆:撒旦海珊 // Saddam Hussein
萨芬:沙芬 // Marat Safin
舒马赫:舒麥加 舒馬克 // Michael Schumacher
迈克尔:米高 麥克 // Michael Schumacher
斯大林:史達林 史太林 // Stalin
托洛茨基:托洛斯基 // Trotsky
......
拖了这么久,中文系统的初步试验终于开始
这次试验只有海外twitter和百度贴吧天涯论坛等来源的半年数据,但做出的分析也蛮有意思。
I did a test on comparing Google and Baidu for side-by-side view of likes, dislikes, net sentiments, sources, etc.
So to summarize the different opinions of these two search giants from social media in Chinese:
2. most striking likes for Google are Cooperative, Innovation, Updated, Optimized and Robust. The likes for Baidu are optimized, updated, and new.
The dislikes of Google are Monopoly, abandoning Android, cannot open it (that is in fact not a problem of Google, it is Chinese Great Wall's problem). The dislikes of Baidu are unstable, drop, and misleading.
There are also a few obvious bugs too, like "very easy" misclassified as dislikes.
方寒大战高频情绪性词的词频分析
(方)不正常 (16.9%)
不喜欢 (方) (14.3%)
反对(方) (13.0%)
(方)更烂 (9.1%)
(方)讨厌 (7.8%)
难 (6.5%)
不支持(方) (5.2%)
(方)果然够下贱 (3.9%)
骂韩少的前15高频情绪性用词的词频分析:第一位是“差”,第二位是“骗子”
(韩)差 (20.0%)
(韩)骗子 (17.9%)
(韩)不尊重 (14.3%)
不相信(韩) (8.6%)
不喜欢(韩) (5.7%)
(韩)造假 (5.0%)
这是所谓“词云”(Word Cloud),近来随着社会媒体的火热和统计工具的流行,作为一个品牌在人心目中的印象的形象化表达逐渐流行起来,不但报刊杂志常常用它来冲击人的视觉,有些公共汽车上的品牌广告上也开始用词云来做形象宣传。
由于汉字的fonts没有弄好,就成酱紫鸟,供各位一乐: