月度归档:2012年10月

正态分布的前世今生(八)

Deep Learning Specialization on Coursera

(八)大道至简,大美天成

To see a world in a grain of sand
And a heaven in a wild flower,
Hold infinity in the palm of your hand
And eternity in an hour.

\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}

算术平均, 极其简单而朴素的一个式子,被人们使用了千百年,而在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。 正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。 中心极限定理在1773年棣莫弗的偶然邂逅的时候,它只是一粒普通的沙子, 两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断的被概率学家们精雕细琢,逐渐的发展成为现代概率论的璀璨明珠。 而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。 一沙一世界,一花一天国, 算术平均或许只是一粒沙子, 正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。

高尔顿他对正态分布非常的推崇与赞美,1886 年他在人类学研究所的就职演讲中说过一段著名的话: ”我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。 如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。 暴民越多,无政府状态越显现, 它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时, 那么总是有一个始料不及的美妙规律潜伏在其中。“

概率学家 Kac 在他的自述传记《机遇之谜》中描述他与正态分布的渊源:“我接触到正态分布之后马上被他深深的吸引, 我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活数学的一部分。” 另一位概率学家 Loeve 说:“如果我们要抽取 Levy 的概率中心思想,那我们可以这样说, 自从 1919 年以后,Levy 研究的主题曲就是正态分布,他一而再再而三的以他为出发点,并且坚决的又回到她...... 他是带着随机时钟沿着随机过程的样本路径作旅行的人。” 美国国家标准局的顾问 W.J.Youden 用如下一段排列为正态曲线形状的文字给予正态分布极高的评价,意思是说: 误差的正态分布规律在人类的经验中具有“鹤立鸡群”的地位, 它在物理、社会科学、、医学、农业、工程等诸多领域都充当了研究的指南, 在实验和观测数据的解读中是不可或缺的工具。

几乎所有的人都或多或少的接触数学,虽然各自的目的不同,对数学的感觉也不同。 工程师、科学家们使用数学是因为他简洁而实用, 数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家, 在实践中被如此广泛的应用,又令众多的数学家为之魂牵梦绕的数学存在,在数学的世界里也并不多见。 我在读研究生的时候,经常逛北大未名BBS 的数学板,有一个叫 ukim 的著名 ID 在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩, 这些故事在喜欢数学的人群中也流传广泛。 最后一个八卦是关于菲尔兹奖得主法国数学家 R.Thom的,它曾经令无数人感动, 我也借用来作为我对正态分布的八卦的结语:

在一次采访当中,作为数学家的 Thom同两位古人类学家讨论问题。 谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存 火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出 鲜美的肉食。而 Thom 说,因为夜幕来临之际,火光摇曳妩媚,灿 烂多姿,是最美最美的......

(九)推荐阅读

在终极的分析中,一切知识都是历史
在抽象的意义下,一切科学都是数学
在理性的基础上,所有的判断都是统计学
-- C.R.Rao

本人并非统计学专业人士,只是凭一点兴趣做一点知识的传播,对统计学历史知识的介绍,专业性和系统性都不是我的目的。 我更在乎的是趣味性,因为没有趣味就不会有传播。如果读完这段历史会让你觉得正态分布更加亲切,不再那么遥不可及, 那我的目的达到了。如果正态分布是一滴水,我愿大家都能看到它折射出的七彩虹。

本文所使用的大多是二手资料,有些历史细节并没有经过严格的考证,对于历史资料一定程度上按照个人喜好做了取舍, 本文主要基于如下的资料写成,对于历史细节感兴趣,不希望被我误导的,推荐阅读。

  • 陈希孺, 数理统计学简史
  • 蔡聰明,誤差論與最小平方法,数学传播
  • 吴江霞,正态分布进入统计学的历史演化
  • E.T. Jaynes, Probability Theory, The Logic of Science (概率论沉思录)
  • Saul Stahl, The Evolution of the Normal Distribution
  • Kiseon Kim, Why Gaussianity
  • Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty before 1900.
  • L.Le Cam, The Central Limit Theorem Around 1935
  • Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory

正态分布的前世今生(七)

Deep Learning Specialization on Coursera

(七)正态魅影

Everyone believes in it: experimentalists believing that it is a
mathematical theorem, mathematicians believing that it is an empirical fact.
---- Henri Poincare

 \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu})^2}{2\sigma^2}}

E.T. Jaynes 在《Probability Theory, the Logic of Science》提出了两个问题:

  1. 为什么正态分布被如此广泛的使用?
  2. 为什么正态分布在实践使用中非常的成功?

E.T. Jaynes 指出,正态分布在实践中成功的被广泛应用,更多的是因为正态分布在数学方面的具有多方面的稳定性质,这些性质包括:

  • 两个正态分布密度的乘积还是正态分布
  • 两个正态分布密度的卷积还是正态分布,也就是两个正态分布的和还是正态分布
  • 正态分布的傅立叶变换还是正态分布
  • 中心极限定理保证了多个随机变量的求和效应将导致正态分布
  • 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵

前三个性质说明了正态分布一旦形成,就容易保持该形态的稳定, Landon 对于正态分布的推导也表明了, 正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明, 其它的概率分布在各种的操作之下容易越来越靠近正态分布。 正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作, 如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免的增加概率分布的信息熵, 这将导致概率分布向正态分布靠近。

正由于正态分布多种的稳定性质,使得它像一个黑洞一样处于一个中心的位置, 其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,Jaynes 把它描述为概率分布中重力现象(gravitating phenomenon)。

我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一。Jaynes 认为还有一个重要的原因 是正态分布的最大熵性质。在很多时候我们其实没有任何的知识知道数据的真实分布是什么, 但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差, 除此之外没有其它更加有用的信息量。因此按照最大熵的原理,我们应该选择在给定的知识的限制下,选择熵最大的 概率分布,而这就恰好是正态分布。即便数据的真实分布不是正态分布,由于我们对真实分布 一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,那这时候正态分布就是最佳的选择。

当然正态分布还有更多令人着迷的数学性质,我们可以欣赏一下:

  • 二项分布 $B(n,p)$ 在 $n$很大逼近正态分布 $N(np, np(1-p))$
  • 泊松分布 $Poisson(\lambda)$ 在 $\lambda$ 较大时逼近正态分布 $N(\lambda,\lambda)$
  • $\chi^2_{(n)}$在 $n$很大的时候接近正态分布 $N(n,2n)$
  • $t$分布在 $n$ 很大时接近标准正态分布 $N(0,1)$
  • 正态分布的共轭分布还是正态分布
  • 几乎所有的极大似然估计在样本量$n$增大的时候都趋近于正态分布
  • Cramer 分解定理(之前介绍过):如果 $X,Y$ 是独立的随机变量,且 $S=X+Y$ 是正态分布,那么 $X,Y$ 也是正态分布
  • 如果 $X,Y$ 独立且满足正态分布$N(\mu, \sigma^2)$, 那么 $X+Y$, $X-Y$ 独立且同分布,而正态分布是唯一满足这一性质的概率分布
  • 对于两个正态分布$X,Y$, 如果$X,Y$ 不相关则意味着$X,Y$独立,而正态分布是唯一满足这一性质的概率分布

正态分布的前世今生(六)

Deep Learning Specialization on Coursera

(六)开疆扩土,正态分布的进一步发展

2.进军近代统计学

花开两朵,各表一枝。上面说了围绕正态分布在概率论中的发展,现在来看看正态分布在数理统计学中发展的故事。 这个故事的领衔主演是 Adolphe Quetelet和高尔顿(Galton)。

由于高斯的工作,正态分布在误差分析迅速确定了自己的定位,有了这么好的工具,我们可能拍脑袋就认为,正态分布很快 就被人们用来分析其它的数据,然而事实却出乎我们的意料,正态分布进入社会领域和自然科学领域,可是经过一番周折的。

首先我要告诉大家一个事实:误差分析和统计学是两个风马牛不相及的两个学科。 当然这个事实存在的时间是19世纪初之前。统计学的产生最初是与“编制国情报告”有关,主要服务于政府部门。 统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据, 是对同一个对象的多次测量。因此观测数据和 统计数据在当时被认为两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。 19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。 而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系, 而与当时的统计学交集非常小。将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星Quetelet。

Quetelet这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。 Quetelet是比利时人,数学博士毕业,年轻的时候曾追谁拉普拉斯学习过概率论。 此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、 国际统计会议之父、近代统计学之父、数理统计学派创始人。 Quetelet 的最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究。

1831年,Quetelet参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。 在这种研究中,Quetelet发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象, 如同自然现象一样也具有一定的规律性。 Quetelet 搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来 对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑, 社会学家们的反对意见主要在于:社会问题 与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据 的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判 断数据同质性的问题。Quetelet大胆地提出:

把一批数据是否能很好地拟合正态分布,作为判断该批数据同质的依据。


Quetelet提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。 由此, Quetelet为正态分布的应用拓展了广阔的舞台。 正态分布如同一把屠龙刀,在Quetelet 的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘, 攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域, 并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。

正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。 高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。 受Quetelet的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据, 发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。

然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据, 发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年, 高尔顿设计了一个 叫高尔顿钉板(quincunx, 或者Galton board)的装置,模拟正态分布的性质用于解释遗传现象。

如下图中每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。 当小圆球向下降落过程中,碰到钉子后皆以 $\frac{1}{2}$ 的概率向左或向右滚下。 如果有$n$排钉子,则各槽内最终球的个数服从二项分布 $B(n,1/2)$, 当n 较大的时候,接近正态分布。

高尔顿钉板

设想在此装置的中间某个地方 AB 设一个挡板把小球截住,小球将在AB处聚成正态曲线形状,如果挡板上 有许多阀门,打开一些阀门,则在底部形成多个大小不一的正态分布,而最终的大正态分布正式这些小 正态分布的混合。

高尔顿钉板解释遗传现象

高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。 他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为 一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布, 而多个大小不一正态分布累加之后其结果任然得到一个正态分布。

高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有 低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到普通人平均身高 去的趋势,这也是“回归”一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据, 同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。

可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了Quetelet的思想; 为数理统计学的产生奠定了基础。 无论是 Quetelet 还是高尔顿,他们的统计分析工作都是以正态分布为中心的, 在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用, 以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。

3. 数理统计三剑客

最后,我们来到了20世纪,正态分布的命运如何呢? 如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。 1901年,高尔顿和他的学生卡尔.皮尔逊(Karl Pearson)、韦尔登(W.F.R Weldon) 创办《生物计量(Biometrika)》杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。 统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。

在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以 拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意: 进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。 由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研 究这种情况下正确的统计方法问题

在这个背景之下,统计学三大分布$\chi^2$分布、$t$分布、$F$分布逐步登上历史舞台。 这三大分布现在的理科本科生都很熟悉。在历史上,这三个分布和来自英国的现代数理 统计学的三大剑客有着密切的关系。

第一位剑客就是卡尔.皮尔逊(Karl Pearson),手中的宝剑就是$\chi^2$分布。 $\chi^2$分布这把宝剑最早的锻造者其实是物理学家麦克斯韦, 他在推导空气分子的运动速度的分布的时候,发现分子速度在三个坐标轴上的分量是正态分布, 而分子运动速度的平方$v^2$符合自由度为3的$\chi^2$分布。麦克斯韦虽然造出了这把宝剑, 但是真正把它挥舞得得心应手、游刃有余的是皮尔逊。在分布曲线 和数据的拟合优度检验中,$\chi^2$分布可是一个利器,而皮尔逊的这个工作被认为是假设检验的开山之作。 皮尔逊继承了高尔顿的衣钵,统计功力深厚,在19世纪末20世纪初很长的一段时间里,一直被数理统计武林 人士尊为德高望重的第一大剑客。

第二位剑客是戈塞特(Gosset),笔名是大家都熟悉的学生氏(Student),而他手中的宝剑是$t$ 分布。戈塞特是化学、数学双学位,依靠自己的化学知识进酿酒厂工作, 工作期间考虑酿酒配方实验中的统计学问题,追谁卡尔.皮尔逊学习了一年的统计学, 最终依靠自己的数学知识打造出了$t$分布这把利剑而青史留名。 1908年,戈塞特提出了正态样本中样本均值和标准差的比值的分布, 并给出了应用上及其重要的第一个分布表。戈塞特在$t$分布的工作是开创了小样本统计学的先河。

第三位剑客是费希尔(R.A.Fisher),手持$F$分布这把宝剑,在一片荒芜中开拓出方差分析的肥沃土地。 $F$分布就是为了纪念费希尔而用他的名字首字母命名的。 费希尔剑法飘逸,在三位剑客中当属费希尔的天赋最高,各种兵器的使用都得心应手。 费希尔统计造诣极高,受高斯的启发,系统的创立了极大似然估计剑法,这套剑法现在被尊为 统计学参数估计中的第一剑法。

费希尔还未出道,皮尔逊已经是统计学的武林盟主了,两人岁数相差了33岁,而戈塞特介于他们中间。 三人在统计学擂台上难免切磋剑术。费希尔天赋极高,年少气盛;而皮尔逊为人强势, 占着自己武林盟主的地位,难免固执己见,以大欺小;费希尔着实受了皮尔逊不少气。 而戈塞特性格温和,经常在两人之间调和。毕竟是长江后浪推前浪,一代新人换旧人, 在众多擂台比试中,费希尔都技高一筹,而最终取代了皮尔逊成为数理统计学第一大剑客。

由于这三大剑客和统计三大分布的出现,正态分布在数理统计学中不再是一枝独秀, 数理统计的领地基本上是被这三大分布抢走了半壁江山。不过这对正态分布而言并非坏事,我们细看这三大分布的数学细节: 假设独立随机变量 $X_i \sim N(0,1), Y_j \sim N(0,1) (i=1\cdots n, j=1\cdots m)$,则满足 三大分布的随机变量可以如下构造出来

  • $\displaystyle \chi_n^2 = X_1^2 + \cdots + X_n^2$
  • $\displaystyle t = \frac{Y_1}{\sqrt{\frac{X_1^2 + \cdots + X_n^2}{n}}}$
  • $\displaystyle F = \frac{\frac{X_1^2 + \cdots + X_n^2}{n}}{\frac{Y_1^2 + \cdots + Y_m^2}{m}} $

你看这三大分布哪一个不是正态分布的嫡系血脉,没有正态分布就生不出$\chi^2$分布、$t$分布、$F$分布。所以正态 分布在19世纪是武则天,进入二十世纪就学了慈禧太后,垂帘听政了。 或者,换个角度说,一个好汉三个帮,正态分布如果是孤家寡人恐怕也难以雄霸天下, 有了统计学三大分布作为开国先锋为它开疆拓土,正态分布真正成为傲世群雄的君王。

20世纪初,统计学这三大剑客成为了现代数理统计学的奠基人。以哥塞特为先驱,费歇尔为主将, 掀起了小样本理论的革命,事实上提升了正态分布在统计学中的地位。 在数理统计学中,除了以正态分布为基础的小样本理论获得了空前的胜利,其它分布上都没有成功的案例, 这不能不让人对正态分布刮目相看。在随后的发展中,相关回归分析、多元分析、方差分析、因子分析、 布朗运动、高斯过程等等诸多统计分析方法陆续登上了历史舞台, 而这些和正态分布密切相关的方法,成为推动现代统计学飞速发展的一个强大动力。

【立委科普:NLP 白皮书】

Deep Learning Specialization on Coursera

Quote:
NLP is not magic, but the results you can get sometimes seem almost magical.
(“NLP 不是魔术,但是,其结果有时几乎就是魔术一般神奇。”)
引自:http://www.confidencenow.com/nlp-seduction.htm

【立委按】作为老兵,常常需要做行业概览(NLP Overview)之类的演讲,有时作为新人训练计划(orientation)的一部分,也有时是应朋友之邀去别处讲,为行业间交流的座谈形式。NLP 是做了一辈子,琢磨了一辈子的事儿,照林彪元帅的话说就是,已经“融化在血液里,落实在行动上”了。所以我从来就当是唠家常,走马谈花。无酒话桑麻,兴之所至,有时也穿插一些掌故,说过就完,烟消云散。可今年的一次演讲,有有心人细心记录在案(caught on tape),整理成了文档。虽然这次演讲枯燥一些(去年一次出外座谈,就精彩多了,现场气氛热络,笑声不断),也是赶上哪趟算哪趟,分享如下,未几对新人有益。删去敏感内容,这篇英语“科普”大体相当于我领导研发的系统的白皮书(white paper)吧。顺便预告一下,手头正在撰写姐妹篇【立委科普:NLP 联络图】,力求分层次对NLP及其相关领域做一个鸟瞰式全面介绍,敬请留意。

Overview of Natural Language Processing (NLP)

【This document provides a text version of Dr. Wei Li's overview of NLP, presented on August 8, 2012.】

At a high level, our NLP core engine reads sentences and extracts insights to support our products. The link between the products and the core engine is the storage system. Today’s topic is on the workings of the NLP core engine.

System Overview

Our NLP core engine is a two-component system.

The first component is a parser, with the dependency tree structure as output, representing the system’s understanding of each sentence. This component outputs a system-internal, linguistic representation, much like diagramming taught in grammar school. This part of the system takes a sentence and “draws a tree of it.” The system parses language in a number of passes (modules), starting from a shallow level and moving on to a deep level.

The second component is an extractor, sitting on top of the parser and outputs a table (or frame) that directly meets the needs of products. This is where extraction rules, based on sub-tree matching, work, including our sentiment extraction component for social media customer insights.

Dependency Tree Structure and Frames

An insight extractor of our system is defined by frames. A frame is a table or template that defines the name of each column (often called event roles) for the target information (or insights). The purpose of the extraction component is to fill in the blanks of the frame and use such extracted information to support a product.

Each product is supported by different insight types, which are defined in the frame. To build a frame, Product Management determines what customers need and what output they want from processing sentences and uses the output information to formulate frame definitions. The NLP team takes the product-side requirements, does a feasibility study, and starts the system development, including rules (in a formalism equivalent to an extended version of cascaded finite state mechanism), lexicons and procedures (including machine learning for classification/clustering), based on a development corpus, to move the project forward. The frames for objective events define things like who did what when and where etc with a specific domain or use scenario in mind. The frames for sentiments or subjective evaluations contain information first to determine whether a comment is positive or negative (or neutral, in a process called sentiment classification). It also defines additional, more detailed columns on who made the comment on what to what degree (passion intensity) in which aspects (details) and why. It distinguishes an insight that is objective (for example, “cost-effective” or “expensive”) from subjective insight (for example, "terrific", “ugly” or “awful”).

The type of insight extraction is based on the first component of linguistic processing (parsing). More specifically, the insight extraction is realized by sub-tree matching rule in extraction grammars. In this example:

Apple launched iPhone 4s last month

The parser first decodes the linguistic tree structure, determining that the logical subject (actor) is “Apple,” the action is “launch,” the logical object (undergoer) is “iPhone 4s,” and “last month” is an adverbial. The system extracts these types of phrases to fill in the linguistic tree structure as follows.

Based on the above linguistic analysis, the second component extracts a product launch event as shown below:

How Systems Answer Questions

We can also look at our system from the perspective of how it addresses users information needs, in particular, how it answers questions in our mind. There are two major systems for getting feedback to satisfy users’ information needs.

Traditional systems, like search engines. A user enters a query into a search engine and gets documents or URLs related to query keywords. This system satisfies some needs, but there is too much information and what you want to know might be buried deep in the data.

NLP-based systems, which can answer users’ questions. All our products can be regarded as special types of “question-answering systems.” The system reads everything, sentence by sentence. If it has a target hit, it can pull out answers from the index to the specified types of questions.

Technology for answering factoid questions, such as when (time), where (location), who (person) is fairly mature. The when-question, for example, is easy to answer because time is almost always expressed in standard formats. The most challenging questions to answer are “how” and “why.” There is consensus in the question answering community on this. To answer “how” questions, you might need a recipe, a procedure, or a long list of drug names. To answer “why,” the system needs to find motivation behind sentiment or motive behind behavior.

Our products are high-end systems that are actually designed to answer “how” and “why” questions in addition to sentiments. For example, if you enter “heart attack” into our system, you get a full solution package organized into sections that includes a list of procedures, a list of drugs, a list of operations, the names of doctors and professionals, etc. Our consumer insight product classify sentiments, otherwise known as “thumbs-up” and “thumbs-down” classification, just like what our competitors do. But we do much more fined-grained and much deeper, and still scale up. Not only can it tell you what percentage, what ratio, how intensively people like or dislike a product, it also provides answers for why people like or dislike a product or a feature of a product. This is important: knowing how popular a brand is only gives a global view of customer sentiments, but such coursed-grained sentiments by themselves are not insightful: the actionable insights in the sentiment world need to answer why questions. Why do customers like or dislike a product feature? Systems that can answer such questions provide invaluable actionable insights to businesses. For example, it is much more insightful to know that consumers love the online speed of iPhone 4s but are very annoyed by the lack of support to flash. This is an actionable insight, one that a company could use to redirect resources to address issues or drive a product’s development. Extraction of such insights is enabled by our deep NLP, as a competitive advantage to traditional classification and clustering algorithms, practiced by almost all the competitions who claim to do sentiments.

Q&A

Q: How do you handle sarcasm?

A: Sarcasm is tough. It is a challenge to all the systems, us included. We have made some tangible progress and implemented some patterns of sarcasm in our system. But overall, it is a really difficult phenomenon of natural language. So far in the community, there is only limited research in the lab, far from being practical. People might say “no” when they mean “yes,” using a “zig-zag” way to express their emotions. It’s difficult enough for humans to understand these things and much more difficult for a machine.

The good news is that sarcasm is not that common overall, assuming that we are considering a large amount of real-life data. There are benchmarks in literature about what percentage of sarcastic data occurs in real-life language corpora. Fortunately, only a small fraction of the data might be related to sarcasm, often not making a statistical impact on data quality, whether or not it is captured.

Not all types of sarcasm are intractable. our products can capture common patterns of sarcasm fairly well. Our first target is sarcasm with fairly clear linguistic patterns, such as when people combine “thank you” (a positive emotion) with a negative behavior: “Thank you for hurting my feelings.” Our system recognizes and captures this contradictory pattern as sarcasm. “Thank you,” in this context, would not be presented as a positive insight.

Q: Do you take things only in context (within a sentence, phrase, or word) or consider a larger context?

A: Do we do anything beyond the sentence boundary to make our insights more coherent to users? Yes, to some extent, and more work is in progress. The index contains all local insights, broken down into “local” pieces. If we don’t put data into the index piece by piece, users can’t “drill down.” Drill-down is a necessary feature in products so the users can verify the insight sources (where exactly the insight is extracted from) and may choose to dive into a particular source.

After our application retrieves data from the index, it performs a “massaging” phase that occurs between retrieving the data storage and displaying it. This massaging phase introduces context beyond sentence and document boundaries. For example, “acronym association” identifies all of the numerous names used to refer to an entity (such as “IBM” versus “International Business Machine Corp”). This context-based acronym association capability is used as an anchoring point for merging the related insights. We have also developed co-reference capability to associate, for example, the pronoun “it” with the entity (such as iPhone) it refers to.
This phase also includes merging of phrases from local insights. For example, “cost-ineffective” is a synonym of “expensive.” The app merges these local insights before presenting them to the users.

Concluding Remarks on Language Technology and its Applications

NLP has been confined to labs for decades since beginning machine translation research in the early 1950s and up until the last decade. Until only a few years ago, NLP in applications had experienced only limited success. While it is moving very fast, NLP has not yet reached its prime time yet in the industry.

However, this technology is maturing and starting to show clear signs of serving as an enabling technology that can revolutionize how humans access information. We are already beyond the point of having to prove its value, the proof-of-concept stage. It just works, and we want to make it work better and more effectively. In the IT sector, more and more applications using NLP are expected to go live, ranging from social media, big data processing to intelligent assistants (e.g., Siri-like features) in mobile platforms. We are in a an exciting race towards making the language technology work in large-scale, real-life systems.

【相关篇什】
【立委科普:从产业角度说说NLP这个行当】
【立委科普:NLP 联络图】(coming soon)

本文引用地址:http://blog.sciencenet.cn/blog-362400-625350.html

NLP 是一个力气活:再论成语不是问题

Deep Learning Specialization on Coursera

NLP是一个力气活,100% agree.
日期: 01/04/2012 15:14:51

有朋友问:
Quote
俺对这个领域 是外行,形式语言和自动机理论还是学过的。其实成语数据库建立并不容易。涉及到大规模数据存储和检索的问题。

从应用层面看,成语数据库没有想象地那么大。当然如果你是包括一个语言的所有领域,方方面面,要求系统理解日常用语,同时也理解专业文献,自然是很大,因为每个子领域都有很多术语(术语是成语的一种)。但是应用系统并不是百科全书,即便有能力建一个大而全的海量成语库,也没有必要,其运行和维护的成本超过了应用时带来的 marginal benefits,譬如,在我们的客户情报挖掘应用中,就不需要一个巨大的医疗术语库,尽管我们实际上已经有了这个库。

日常使用的成语是多少呢?往多说,10万条该够了吧。人脑如果不借助于临时查字典,学富五车的人也不过记得住10万成语到顶了吧。10万条对于现在的系统算什么。系统一启动就全load进内存随时待命了。
Quote
立委能不能给俺们简单科普一下,你们NLP产业到底发展到哪一步了。你的技术优势是什么?今后的发展方向又如何?

这个要简单说不太容易。让我试试吧:我们的技术优势就是探索出来一条利用深度分析而抽取任何文本信息(无论主观评价,还是客观事实)的高精度、细颗粒度的方法,而业界所流行的是浅度分析 and/or 机器学习,精度和颗粒度均低一个档次,质量完全不成比例,尽管后者的覆盖面会广一些。深度分析不是我们独有的,很多实验室都有;但是把深度分析应用到大规模真实语料能做出产品来,竞争者鲜见,原因大概是门槛太高了点儿。研究家们常常不习惯这种讲求平衡艺术(balancing art)而且需要极大耐力和应变灵活性的力气活,他们所擅长的是把一个思路推向极致,试图在算法或者理论上寻求突破或不同,这也有利于他们耐以生存发展的论文发表。多数习惯于短平快出成果的理工背景的机器学习家,往往对语言的混乱度估计不足,面对silent majority 的个性现象不甚耐烦(sparse data 是他们的死敌,在语言现象中格外明显)。当然,这也不是火箭技术,总会有人赶上的,但这里有个时间差。龟兔赛跑,并非每个兔子都爱睡懒觉。时间差算是一个很大的 competitive advantage.

今后的发展方向,我只能凭感觉说了。从科学角度,弱监督的机器学习(weakly supervised learning)如果有理论和方法上的突破,可能给语言技术的应用带来崭新的局面。从实践上看,更有迹可寻的方向是建立一个机器学习和人工干预的集成交互的语言技术开发环境和平台,使得语言技术开发较少依赖于一个人的经验和平衡术,较多地决定于数据的制导。形象点儿说就是,要把中国餐馆式依赖大厨独门技术的作业方式,改变成麦当劳式(其实更高质量并且有QA保证的 In-n-Out 更加合适)的流水作业,用以保证技术开发的基本质量。

本文引用地址:http://blog.sciencenet.cn/blog-362400-525929.html

【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】

Deep Learning Specialization on Coursera

引用老友:
受教了。谢谢立委。
我同意“成语从来不是问题”。成问题的应该是一词多义,或歧义,对吧?

这个迷思不再局限于中文处理,它在整个NLP领域和NLP爱好者圈子里颇有迷惑性。WSD (Word Sense Disambiguation) 确系 NLP 难点,但在NLP应用上基本不是问题。

泛泛而言,一切歧义(词汇的,也包括结构歧义)都是自然语言的难点。形式语言(如计算机语言)好就好在基本不歧义。

但是,如果以信息抽取作为终极目标,绝大多数的一词多义也不是真正的问题,除非这种歧义影响了句子的结构分析(多数词汇歧义并不影响结构分析)。

原因在于信息抽取的时候,目标是明确的,建立的规则大多是词汇驱动的,而不是词义类别驱动的,因此歧义在抽取的时候有自动消失的条件。举例说明:英语 buy 至少有两个义项:

buy:
(1)购买:Microsoft bought Powerset for $100 million
(2)相信:I am not going to buy his argument

不做 WSD(Word Sense Disambiguation),也并不影响结构分析:

信息抽取也可以绕开 WSD,譬如,如果抽取的目标是公司购并(company acquisition)事件,下列由buy这几个词驱动的规则一样可以逮住上述(1)的事件,而并不需要对buy先行WSD再行事件抽取。因为事件抽取的条件自动排除了歧义,使得句子(2)不会被误抓为公司购并(argument 不是公司名)。

动词:buy|purchase|acquire
逻辑主语 (Actor):公司名 @1
逻辑宾语 (Undergoer):公司名 @2
==》
《公司并购事件》:
收购公司: @1
被收购公司:@2

总之,很多时候可以绕开WSD来开发系统。实际上,多数时候必须要绕着走。domain independent WSD 差不多是 NLP 难度最大的课题了,幸好可以绕开。神佑世人,感谢上帝!

@MyGod9:如果以机器翻译为目标呢?

如果是有近亲关系的语言之间做机器翻译,基本不需要 WSD,多数 ambiguity can carry over untouched. 即便是不同语系的语言之间做翻译,也要针对这个语言对来区分歧义,最好不要在不考虑目标语前先行WSD,因为后者大多吃力不讨好。

非统计类型的机器翻译系统的主流是转换式(transfer-based)机器翻译。词汇转换(包括针对目标语的词义消歧)与结构转换同步进行比较经济有利,利于维护。这就意味着机器翻译也与信息抽取有一定的共通之处:利用结构转换的条件同时消歧。

当然,机器翻译是NLP的一个特殊case,现在的主流都是统计模型了,因为 labeled data (双语语料库)只要有人类翻译活动就会作为副产品大量存在。这为机器学习创造了天然的好条件。统计模型支持的机器翻译,本质上也是转换式的。因此也不需要一个单独先行的WSD来支持。

WSD 可以作为 NLP 庙堂里的一尊菩萨供起来,让学者型研究家去烧香,实际系统开发者大可以敬鬼神而远之。:=)

说到这里,想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握了核武器可以无坚不摧:这些脱离实际的空谈乍听起来很有理由,很能迷惑人。

可我是业内“达人”(开玩笑啦),不吃这一套。我给出的鉴定基本是否定性的,断定为极高风险,不建议投资:他们的demo系统也许确实做出了比其他系统更好的WSD结果(存疑,我 interview 他们的时候发现他们其实并没有做真正的业内系统的 apple-to-apple 比较),但是即便如此,其 scale up、适应不同domain 并得到实用,是几乎不可能的。我的小组以前做过WSD研究,也发表过 state-of-the-art 的结果和论文,知道这不是好吃的果子,也知道这是研究性强实用性弱的题目。我投票枪毙了这项风险投资。(如果是国家科学基金,WSD 当然是可以立项的。)

需要说明一句:枪毙技术投资的事情是不能轻易做的。大家都是技术人,都指望凭着技术和资金去改造世界,成就一番大事业。本是同根生,相煎何太急?今天我枪毙了你的技术投资项目,明天我要创业,说动了资本家后,是绝对不希望也被同仁给毙了。人同此心。本来就是风险投资嘛,资本家早就做好了失败的心理准备,他们打10枪只要中了一次,就不算亏本买卖了。要允许技术带有风险,要允许技术人“忽悠”资本家(他们大多是只听得懂“忽悠”型话语方式的人,真的,行内的“规矩”了,想不忽悠都不成),作为技术人要鼓励资本家拥抱风险。尽管如此,那次枪毙 WSD 我觉得做得很坦然,这是箭在弦上不得不发。 工业上 WSD 在可见的将来完全没有前途是注定的事情,用脚后跟都可以明白的事情,没有丝毫袒护的空间。这根本不是什么高风险高回报的问题,这是零回报的case,俗话都说了,女怕嫁错郎,男怕入错行,专业怕选错方向。方向错了,再努力都没戏,对于工业开发,WSD 就是这么一个错得离谱的方向。

朋友说了,如果这真是一个错误的方向,你为什么也拿政府的grant,做这个方向的研究了?(话说回来,不拿这个钱做这个研究,我能有这个权威和自信如此斩钉截铁地判断其应用价值几近于零么?)这个问题要这么看:其一,科学研究烧钱与工业投资烧钱本质不同,后者是以纯经济回报作为存在的理由。其二,政府的grant是竞标夺来的,我不拿,别人也要拿,总之,这纳税人的钱也省不下来。如果有问题,那是立项的问题。

说到立项,再多说几句。我们拿到的WSD研究项目是海军的SBIR创新基金,其主旨不同于鼓励纯科学研究的NSF,而是推动应用型技术的发展。从应用意义上说,这个立项方向是有错的。立项虽然是政府项目经理人之间竞标最后胜出的,但项目经理人不是一线科技人,他们的 idea 也是受到技术人影响的结果。说白了,还是技术人的忽悠。这个项目不大,问题还不大,如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当然,那么大的投资砸下去,总会有一些零星的技术进步,也培养一批技术和研究人才,但作为整体目标,这个项目可以说是完败,头脑发热的日式大跃进)。美国呢,这样的热昏项目也有过。赫赫有名的 DARPA 是美国国家项目最成功的典范了,它推动了美国的高技术创新,催生了一些重要的技术产业,包括信息抽取(Information Extraction)和搜索技术,包括问答系统(Question Answering)。然而,即便如此成功的 program,有时也会有热昏如五代机这样的项目出台,完全错误的方向,不成比例的投资,天方夜谭的前景描述。笔者当年为找研究基金,研读某 DARPA 项目的描述,当时的震撼可以说是目瞪口呆,满篇热昏的胡话,感觉与中国的大跃进可以一比。惊异于科学界整体怎么会出现允许这样项目出来的环境,而且大家都争抢着分一杯羹,全然不顾其中的假大空。点到为止,就此打住。

本文引用地址:http://blog.sciencenet.cn/blog-362400-526304.html
分享到:收藏分享

说说科研立项中的大跃进

Deep Learning Specialization on Coursera

说到立项,再多说几句。...... 如果一个大项目选错了方向,才真是糟蹋人民的钱财。历史上这样的案例还是不少的。远的有日本在上个世纪80年代上马的所谓“第五代计算机”的项目,忽悠得昏天黑地,似乎这个大项目的完成,新一代能够理解自然语言的人工智能电脑就会面世,日本就会成为世界电脑技术翘楚。结果呢,无疾而终(当然,那么大的投资砸下去,总会有一些零星的技术进步,也培养一批技术和研究人才,但作为整体目标,这个项目可以说是完败,头脑发热的日式大跃进)。

美国呢,这样的热昏项目也有过。赫赫有名的 DARPA 是美国国家项目最成功的典范了,它推动了美国的高技术创新,催生了一些重要的技术产业,包括信息抽取(Information Extraction)和搜索技术,包括问答系统(Question Answering)。然而,即便如此成功的 program,有时也会有热昏如五代机这样的项目出台,完全错误的方向,不成比例的投资,天方夜谭的前景描述。笔者当年为找研究基金,研读某 DARPA 项目的描述,当时的震撼可以说是目瞪口呆,满篇热昏的胡话。惊异于科学界整体怎么会出现允许这样项目出来的环境,而且大家都争抢着分一杯羹,全然不顾其中的假大空。点到为止,就此打住。(为什么点到为止呢?因为好像是主席说过的,10仗赢得9场就是一个好将军,不想坏了 DARPA 的名声。DARPA 对美国高技术的推动怎样评价都不为过。)

摘自:
《NLP 迷思之四:词汇消歧(WSD)是NLP应用的瓶颈》

本文引用地址:http://blog.sciencenet.cn/blog-362400-526592.html

当前推荐数:20 推荐人: 吴飞鹏 吕喆 刘艳红 李学宽 张志东 朱志敏 赵凤光 武夷山 许培扬 李永丹 杜敏彪 曹聪 徐耀 安海龙 杨正瓴 杨海涛 李传亮 者仁王 bridgeneer paulings
推荐到博客首页
发表评论 评论 (12 个评论)

删除 回复 [12]王晓明 2012-1-9 03:53
我觉得对于科研投入来讲,十战一胜已经是很好的成绩。。。科学有个探索的过程,你得允许人犯错。。。

删除 回复 [11]陈安 2012-1-8 20:00
云计算啥的,听起来也云里雾里的

删除 回复 [10]欧阳峰 2012-1-8 01:56
要说十战九胜的话,DARPA差得太远了。就我所知的项目中,十战一胜还差不多。不过DARPA在美国政府中还算成功的典型呢。现在能源部也搞了个类似的组织,听说别的部也在效仿。 
博主回复(2012-1-8 18:18):我对DARPA全貌并不了解,比喻失当。其实想说的是两点:其一,DARPA 对于美国信息产业的技术创新推动甚大,促成美国在世界信息产业领导者的地位,我们都是见证者和受益者;其二,即便 DARPA 也有荒诞无经的大跃进项目出台,我正好撞到一次,极为震撼。我觉得,DARPA 的优秀项目(你说的10战1胜的项目)之外,其他项目平庸、无大成果或有之,但是大跃进似的假大空项目应该是很少数的。

删除 回复 [9]southtech 2012-1-7 19:59
DARPA: Defense Advanced Research Projects Agency

删除 回复 [8]杨正瓴 2012-1-7 19:20
DARPA 项目,是什么?
能科普一下吗?

删除 回复 [7]徐耀 2012-1-7 17:26
本人前不久写了个“大项目的投入产出如何?”,可惜没有引起足够关注。

删除 回复 [6]relaxation 2012-1-7 12:52
"跨越式......"的本质就是跃进,可是有不少阶段或过程是跨不过去的。

删除 回复 [5]许培扬 2012-1-7 11:42
癌症研究、艾滋病疫苗研究也有过大跃进。

删除 回复 [4]方唯硕 2012-1-7 09:15
"举个国内的例子呗?"--居心不良,不想让博主在中国混了?

删除 回复 [3]吕喆 2012-1-7 09:02
俺这两天正在写一篇关于“大跃进”的博文。

删除 回复 [2]吕喆 2012-1-7 09:00
看标题还以为是mirror呢。

删除 回复 [1]吴国清 2012-1-7 08:48
举个国内的例子呗?

女怕嫁错郎,男怕入错行

Deep Learning Specialization on Coursera

【女怕嫁错郎,男怕入错行,专业怕选错方向】

想起数年前我被华尔街 VC 在 due diligence 阶段请去鉴定一家做WSD的技术公司(名字就不提了),这家公司声称解决WSD (Word Sense Disambiguation)有独到的技术,可以用来支持下一代搜索引擎,超越Google,因此吸引了华尔街投资家的注意。他们在白皮书中说得天花乱坠,WSD 是语言技术的皇冠,谁摘下了这颗皇冠,就掌握了核武器可以无坚不摧:这些脱离实际的空谈乍听起来很有理由,很能迷惑人。

可我是业内“达人”(开玩笑啦),不吃这一套。我给出的鉴定基本是否定性的,断定为极高风险,不建议投资:他们的demo系统也许确实做出了比其他系统更好的WSD结果(存疑,我 interview 他们的时候发现他们其实并没有做真正的业内系统的 apple-to-apple 比较),但是即便如此,其 scale up、适应不同domain 并得到实用,是几乎不可能的。我的小组以前做过WSD研究,也发表过 state-of-the-art 的结果和论文,知道这不是好吃的果子,也知道这是研究性强实用性弱的题目。我投票枪毙了这项风险投资。(如果是国家科学基金,WSD 当然是可以立项的。)

需要说明一句:枪毙技术投资的事情是不能轻易做的。大家都是技术人,都指望凭着技术和资金去改造世界,成就一番事业。本是同根生,相煎何太急?今天我枪毙了他的技术投资项目,明天我要创业,说动了资本家后,是绝对不希望也被同仁给毙了。人同此心。本来就是风险投资嘛,资本家早就做好了失败的心理准备,他们打10枪只要中了一次,就不算亏本买卖了。要允许技术带有风险,要允许技术人“忽悠”资本家(他们大多是只听得懂“忽悠”型话语方式的人,真的,行内的“规矩”了,想不忽悠都不成),作为技术人要鼓励资本家拥抱风险。尽管如此,那次枪毙 WSD 我觉得做得很坦然,这是箭在弦上不得不发。 工业上 WSD 在可见的将来完全没有前途是注定的事情,用脚后跟都可以明白的事情,没有丝毫袒护的空间。这根本不是什么高风险高回报的问题,这是零回报的case,俗话都说了,女怕嫁错郎,男怕入错行,专业怕选错方向。方向错了,再努力都没戏,对于工业开发,WSD 就是这么一个错得离谱的方向。

朋友说了,如果这真是一个错误的方向,你为什么也拿政府的grant,做这个方向的研究了?(话说回来,不拿这个钱做这个研究,我能有这个权威和自信如此斩钉截铁地判断其应用价值几近于零么?)这个问题要这么看:其一,科学研究烧钱与工业投资烧钱本质不同,后者是以纯经济回报作为存在的理由。其二,政府的grant是竞标夺来的,我不拿,别人也要拿,总之,这纳税人的钱也省不下来。如果有问题,那是立项的问题。

摘自:
《NLP 迷思之四:词汇消歧(WSD)是NLP应用的瓶颈》

相关篇什:
提上来:说说科研立项中的大跃进

本文引用地址:http://blog.sciencenet.cn/blog-362400-526701.html

2011 信息产业的两大关键词:社交媒体和云计算

Deep Learning Specialization on Coursera

我们现在正处在一个难得的历史契机。

去年发生了一连串值得注意的相关事件。其热门关键词是社会媒体(social media) 和云计算(cloud computing),而大数据(big data)情报挖掘正是针对社会媒体内容利用云计算作为支撑的高新技术产业的代表。
社会媒体尤其是微博持续升温,无论是用户还是其产生的内容,都以爆炸性速度增长,一场悄悄的社会媒体革命正在发生,它从根本上改变着社会大众以及企业对信息的接受和传播方式。传统的由媒体巨头主导经由电视、广播和报纸的自上而下的新闻和宣传的传播方式正在逐渐让步于基于网络与网民的社交媒体的蛛网方式。最新的新闻(无论是天灾人祸、名人掐架还是品牌褒贬)常常发端于处在现场的网民或当事人的微博,然后瞬间辐射到整个互联网,传统传媒只能紧随其后。在这样的形势下,企业软件巨头纷纷把目光聚焦在对于社会媒体舆论和民意的跟踪上,视其为品牌和客户情报的重要来源。

去年年初,美国做市场情报的巨头之一 Salesforce以三亿多美元 (326million)的价钱并购了社会媒体客户情报检测系统Radian6,说明社会媒体中客户对产品的评价情报对于企业的重要性不容忽视。Oracle对从事云计算和社会媒体追踪的公司RightNow的并购更是高达15亿(1.5 billion).  HP在逐渐放弃低利润的PC和平板等硬件产业的同时,开始加强企业软件的投资力度,以120亿天价购并了从事文本情报包括社会媒体的英国公司Autonomy(12billion)。最后,接近年末的时候,全球企业软件的另一家巨头SAP以34亿收购了云计算公司SuccessFactors(3.4 billion),并决定与专事社会媒体深度分析的公司Netbase建立战略伙伴关系,分销并整合其社会媒体情报作为企业情报解决方案的重要一环。加上IBM自己的Coremetrics Social和Adobe的 SocialAnalytics,可以看到所有企业软件巨头不约而同看好社会媒体的情报价值。

可以预见,在这个领域的投资和竞争日趋激烈。越来越多的华尔街主流投资公司开始加大对社交媒体 (social media) 分析系统公司的投资力度。如 Jive Software,连续得到 Sequoia Capital 两轮投资 (2007 和2010)。Sequoia Capital 是“重中之重”的 投资大鳄,曾是如下名牌企业的最早投资商,战略眼光犀利: Apple, Google, Cisco, Oracle.

对于中文社交媒体大规模处理的应用型软件,目前还是空白。然而中文网络信息的增长速度却是扶摇直上,单新浪微博用户去年中就突破两亿,社交媒体所产生的巨量内容有如深埋的富矿,亟待开采。

回顾一下互联网技术公司的里程碑吧:
雅虎以门户网站(Yahoo portal)先领风骚,谷歌以搜索 (Google search) 后来居上,脸书推出社交网络(Facebook social),目前正紧锣密鼓筹备上市(市值估算是500 个亿以上,远远超过当年谷歌上市的170亿的价码)。
下一个里程碑是什么?
Big data intelligence
很多人这样预测。 Google 首席科学家前不久也列此为未来十年的高新技术第一块牌子。所不清晰的是谁家会胜出。
是有志之士摩拳擦掌弄潮儿的时机了。时不我待,机不再来,此之谓也!

http://blog.sciencenet.cn/blog-362400-533366.html

立委统计发现,人是几乎无可救药的情绪性动物

Deep Learning Specialization on Coursera
立委跨语言统计发现,人是几乎无可救药的情绪性动物
作者: 立委 (*)
日期: 07/27/2012 12:58:29

 

最近跨语言(英、法、意、西、日、汉)的实验表明,在对目标进行评判的语句中,人发表情绪性判断(如 棒/糟极了,爱/恨死了,非常满 意/讨厌)比起提供客观性描述(如 便宜/昂贵,节能/耗能,易用/难用)要多出一倍以上,尽管情绪性词汇总量只是客观性描述词汇总量的一半不到。

以上数据来自社会媒体的跨语言自动调查,语言的差异并不太大。虽然是初步结果,但调查量大(每个语言测试了约三十万语句),应该还是大体反映了语言(进而 human nature)的一个侧面。

Just some initial statistics found in the ball park from our experimentation of using default rules across languages: although the subjective quality default rule is only trigged by good/love/happy (or bad/hate/annoyed) emotional words which are a smaller subset than objective quality trigger words (cheap/expensive, high/low resolution, long/short battery-life etc.), the sentences captured by the subjective default rule doubles the sentences from applying the objective default rule.  This shows, perhaps, that human beings are very emotional creatures, so emotional that they judge twice as often as they provide simple objective evidence to justify their judgments.

http://blog.sciencenet.cn/blog-362400-596765.html