作者归档:rickjin

LDA-math-认识Beta/Dirichlet分布(2)

2. LDA-math-认识Beta/Dirichlet分布(2)
2.2 Beta-Binomial 共轭

魔鬼的第二个题目,数学上形式化一下,就是

  1. $X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}}Uniform(0,1)$,对应的顺序统计量是 $X_{(1)},X_{(2)},\cdots, X_{(n)}$, 我们要猜测 $p=X_{(k)}$;
  2. $Y_1,Y_2,\cdots,Y_m {\stackrel{\mathrm{iid}}{\sim}}Uniform(0,1)$, $Y_i$中有$m_1$个比$p$小,$m_2$个比$p$大;
  3. 问 $P(p|Y_1,Y_2,\cdots,Y_m)$ 的分布是什么。

由于$p=X_{(k)}$在 $X_1,X_2,\cdots,X_n $中是第$k$大的,利用$Y_i$的信息,我们容易推理得到 $p=X_{(k)}$ 在$X_1,X_2,\cdots,X_n,Y_1,Y_2,\cdots,Y_m {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)$ 这$(m+n)$个独立随机变量中是第 $k+m_1$大的,于是按照上一个小节的推理,此时$p=X_{(k)}$ 的概率密度函数是 $Beta(p|k+m_1,n-k+1+m_2)$。按照贝叶斯推理的逻辑,我们把以上过程整理如下:

  1. $p=X_{(k)}$是我们要猜测的参数,我们推导出 $p$ 的分布为 $f(p) = Beta(p|k,n-k+1)$,称为 $p$ 的先验分布;
  2. 数据$Y_i$中有$m_1$个比$p$小,$m_2$个比$p$大,$Y_i$相当于是做了$m$次贝努利实验,所以$m_1$ 服从二项分布 $B(m,p)$;
  3. 在给定了来自数据提供的$(m_1,m_2)$的知识后,$p$ 的后验分布变为 $f(p|m_1,m_2)=Beta(p|k+m_1,n-k+1+m_2)$

coin-toss贝努利实验

继续阅读

LDA-math-认识Beta/Dirichlet分布(1)

2. 认识Beta/Dirichlet分布
2.1 魔鬼的游戏---认识Beta 分布

统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了,撒旦说:”你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。“ 你应该怎么猜呢?

从数学的角度抽象一下,上面这个游戏其实是在说随机变量$X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)$,把这$n$ 个随机变量排序后得到顺序统计量 $X_{(1)},X_{(2)},\cdots, X_{(n)}$, 然后问 $X_{(k)}$ 的分布是什么。

对于不喜欢数学的同学而言,估计每个概率分布都是一个恶魔,那在概率统计学中,均匀分布应该算得上是潘多拉魔盒,几乎所有重要的概率分布都可以从均匀分布$Uniform(0,1)$中生成出来;尤其是在统计模拟中,所有统计分布的随机样本都是通过均匀分布产生的。

pandora潘多拉魔盒Uniform(0,1)

继续阅读

LDA-math-神奇的Gamma函数(3)

1. 神奇的Gamma函数
1.3 从二项分布到Gamma 分布

Gamma 函数在概率统计中频繁现身,众多的统计分布,包括常见的统计学三大分布($t$ 分布,$\chi^2$ 分布,$F$ 分布)、Beta分布、 Dirichlet 分布的密度公式中都有 Gamma 函数的身影;当然发生最直接联系的概率分布是直接由 Gamma 函数变换得到的 Gamma 分布。对Gamma 函数的定义做一个变形,就可以得到如下式子
 \int_0^{\infty} \frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}dx = 1
于是,取积分中的函数作为概率密度,就得到一个形式最简单的Gamma 分布的密度函数
Gamma(x|\alpha) = \frac{x^{\alpha-1}e^{-x}}{\Gamma(\alpha)}
如果做一个变换 $x=\beta t$, 就得到Gamma 分布的更一般的形式
Gamma(t|\alpha, \beta) = \frac{\beta^\alpha t^{\alpha-1}e^{-\beta t}}{\Gamma(\alpha)}
其中 $\alpha$ 称为 shape parameter, 主要决定了分布曲线的形状;而$\beta$ 称为 rate parameter 或者inverse scale parameter ($\frac{1}{\beta}$ 称为scale parameter),主要决定曲线有多陡。

gamma-distribution$Gamma(t|\alpha,\beta)$分布图像

Gamma 分布在概率统计领域也是一个万人迷,众多统计分布和它有密切关系。指数分布和$\chi^2$ 分布都是特殊的Gamma 分布。另外Gamma 分布作为先验分布是很强大的,在贝叶斯统计分析中被广泛的用作其它分布的先验。如果把统计分布中的共轭关系类比为人类生活中的情侣关系的话,那指数分布、Poission分布、正态分布、对数正态分布都可以是 Gamma 分布的情人。接下来的内容中中我们主要关注$\beta = 1$的简单形式的 Gamma 分布。
继续阅读

LDA-math-神奇的Gamma函数(2)

1. 神奇的Gamma函数
1.2 Gamma 函数欣赏

Each generation has found something of interest to say about the gamma function. Perhaps the next generation will also. 
---Philip J.Davis

Gamma 函数从它诞生开始就被许多数学家进行研究,包括高斯、勒让德、威尔斯特拉斯、柳维尔等等。这个函数在现代数学分析中被深入研究,在概率论中也是无处不在,很多统计分布都和这个函数相关。Gamma 函数作为阶乘的推广,首先它也有和 Stirling 公式类似的一个结论
 \Gamma(x) \sim \sqrt{2\pi}e^{-x}x^{x-\frac{1}{2}}
另外, Gamma 函数不仅可以定义在实数集上,还可以延拓到整个复平面上。

gamma-complex复平面上的Gamma 函数

Gamma 函数有很多妙用,它不但使得 (1/2)! 的计算有意义,还能扩展很多其他的数学概念。比如导数,我们原来只能定义一阶、二阶等整数阶导数,有了Gamma 函数我们可以把函数导数的定义延拓到实数集,从而可以计算 1/2 阶导数,同样的积分作为导数的逆运算也可以有分数阶。我们先考虑一下 $x^n$ 的各阶导数

derivatives由于k阶导数可以用阶乘表达,于是我们用Gamma 函数表达为
 \frac{\Gamma{(n+1)}}{\Gamma{(n-k+1)}} x^{n-k}
于是基于上式,我们可以把导数的阶从整数延拓到实数集。例如,取$n=1, k=\frac{1}{2}$我们可以计算 $x$ 的 $\frac{1}{2}$阶导数为
 \frac{\Gamma{(1+1)}}{\Gamma{(1-1/2+1)}} x^{1-1/2} = \frac{2\sqrt{x}}{\sqrt{\pi}}
继续阅读

LDA-math-神奇的Gamma函数(1)

1. 神奇的Gamma函数
1.1 Gamma 函数诞生记
学高等数学的时候,我们都学习过如下一个长相有点奇特的Gamma函数
 \Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t}dt
通过分部积分的方法,可以推导出这个函数有如下的递归性质
\Gamma(x+1) = x \Gamma(x)
于是很容易证明,$\Gamma(x)$ 函数可以当成是阶乘在实数集上的延拓,具有如下性质
\Gamma(n) = (n-1)!

学习了Gamma 函数之后,多年以来我一直有两个疑问:

  • 这个长得这么怪异的一个函数,数学家是如何找到的;
  • 为何定义 $\Gamma$ 函数的时候,不使得这个函数的定义满足$\Gamma(n) = n! $ 而是 $\Gamma(n) = (n-1)! $

最近翻了一些资料,发现有不少文献资料介绍 Gamma 函数发现的历史,要说清楚它需要一定的数学推导,这儿只是简要的说一些主线。

1728年,哥德巴赫在考虑数列插值的问题,通俗的说就是把数列的通项公式定义从整数集合延拓到实数集合,例如数列 $1,4,9,16,\cdots$ 可以用通项公式 $n^2$ 自然的表达,即便 $n$ 为实数的时候,这个通项公式也是良好定义的。直观的说也就是可以找到一条平滑的曲线$y=x^2$通过所有的整数点$(n,n^2)$,从而可以把定义在整数集上的公式延拓到实数集合。一天哥德巴赫开始处理阶乘序列 $1,2,6,24,120,720,\cdots$,我们可以计算 $2!,3!$, 是否可以计算 $2.5!$呢?我们把最初的一些 $(n,n!)$的点画在坐标轴上,确实可以看到,容易画出一条通过这些点的平滑曲线。


factorial
factorial-curve

但是哥德巴赫无法解决阶乘往实数集上延拓的这个问题,于是写信请教尼古拉斯.贝努利和他的弟弟丹尼尔.贝努利,由于欧拉当时和丹尼尔.贝努利在一块,他也因此得知了这个问题。而欧拉于1729 年完美的解决了这个问题,由此导致了$\Gamma$ 函数的诞生,当时欧拉只有22岁。
继续阅读

正态分布的前世今生(八)

(八)大道至简,大美天成

To see a world in a grain of sand
And a heaven in a wild flower,
Hold infinity in the palm of your hand
And eternity in an hour.

\bar{X} = \frac{X_1 + X_2 + \cdots + X_n}{n}

算术平均, 极其简单而朴素的一个式子,被人们使用了千百年,而在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。 正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。 中心极限定理在1773年棣莫弗的偶然邂逅的时候,它只是一粒普通的沙子, 两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断的被概率学家们精雕细琢,逐渐的发展成为现代概率论的璀璨明珠。 而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。 一沙一世界,一花一天国, 算术平均或许只是一粒沙子, 正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。

高尔顿他对正态分布非常的推崇与赞美,1886 年他在人类学研究所的就职演讲中说过一段著名的话: ”我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。 如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。 暴民越多,无政府状态越显现, 它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时, 那么总是有一个始料不及的美妙规律潜伏在其中。“

概率学家 Kac 在他的自述传记《机遇之谜》中描述他与正态分布的渊源:“我接触到正态分布之后马上被他深深的吸引, 我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活数学的一部分。” 另一位概率学家 Loeve 说:“如果我们要抽取 Levy 的概率中心思想,那我们可以这样说, 自从 1919 年以后,Levy 研究的主题曲就是正态分布,他一而再再而三的以他为出发点,并且坚决的又回到她...... 他是带着随机时钟沿着随机过程的样本路径作旅行的人。” 美国国家标准局的顾问 W.J.Youden 用如下一段排列为正态曲线形状的文字给予正态分布极高的评价,意思是说: 误差的正态分布规律在人类的经验中具有“鹤立鸡群”的地位, 它在物理、社会科学、、医学、农业、工程等诸多领域都充当了研究的指南, 在实验和观测数据的解读中是不可或缺的工具。

几乎所有的人都或多或少的接触数学,虽然各自的目的不同,对数学的感觉也不同。 工程师、科学家们使用数学是因为他简洁而实用, 数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家, 在实践中被如此广泛的应用,又令众多的数学家为之魂牵梦绕的数学存在,在数学的世界里也并不多见。 我在读研究生的时候,经常逛北大未名BBS 的数学板,有一个叫 ukim 的著名 ID 在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩, 这些故事在喜欢数学的人群中也流传广泛。 最后一个八卦是关于菲尔兹奖得主法国数学家 R.Thom的,它曾经令无数人感动, 我也借用来作为我对正态分布的八卦的结语:

在一次采访当中,作为数学家的 Thom同两位古人类学家讨论问题。 谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存 火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出 鲜美的肉食。而 Thom 说,因为夜幕来临之际,火光摇曳妩媚,灿 烂多姿,是最美最美的......

(九)推荐阅读

在终极的分析中,一切知识都是历史
在抽象的意义下,一切科学都是数学
在理性的基础上,所有的判断都是统计学
-- C.R.Rao

本人并非统计学专业人士,只是凭一点兴趣做一点知识的传播,对统计学历史知识的介绍,专业性和系统性都不是我的目的。 我更在乎的是趣味性,因为没有趣味就不会有传播。如果读完这段历史会让你觉得正态分布更加亲切,不再那么遥不可及, 那我的目的达到了。如果正态分布是一滴水,我愿大家都能看到它折射出的七彩虹。

本文所使用的大多是二手资料,有些历史细节并没有经过严格的考证,对于历史资料一定程度上按照个人喜好做了取舍, 本文主要基于如下的资料写成,对于历史细节感兴趣,不希望被我误导的,推荐阅读。

  • 陈希孺, 数理统计学简史
  • 蔡聰明,誤差論與最小平方法,数学传播
  • 吴江霞,正态分布进入统计学的历史演化
  • E.T. Jaynes, Probability Theory, The Logic of Science (概率论沉思录)
  • Saul Stahl, The Evolution of the Normal Distribution
  • Kiseon Kim, Why Gaussianity
  • Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty before 1900.
  • L.Le Cam, The Central Limit Theorem Around 1935
  • Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory

正态分布的前世今生(七)

(七)正态魅影

Everyone believes in it: experimentalists believing that it is a
mathematical theorem, mathematicians believing that it is an empirical fact.
---- Henri Poincare

 \displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{{(x-\mu})^2}{2\sigma^2}}

E.T. Jaynes 在《Probability Theory, the Logic of Science》提出了两个问题:

  1. 为什么正态分布被如此广泛的使用?
  2. 为什么正态分布在实践使用中非常的成功?

E.T. Jaynes 指出,正态分布在实践中成功的被广泛应用,更多的是因为正态分布在数学方面的具有多方面的稳定性质,这些性质包括:

  • 两个正态分布密度的乘积还是正态分布
  • 两个正态分布密度的卷积还是正态分布,也就是两个正态分布的和还是正态分布
  • 正态分布的傅立叶变换还是正态分布
  • 中心极限定理保证了多个随机变量的求和效应将导致正态分布
  • 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵

前三个性质说明了正态分布一旦形成,就容易保持该形态的稳定, Landon 对于正态分布的推导也表明了, 正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明, 其它的概率分布在各种的操作之下容易越来越靠近正态分布。 正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作, 如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免的增加概率分布的信息熵, 这将导致概率分布向正态分布靠近。

正由于正态分布多种的稳定性质,使得它像一个黑洞一样处于一个中心的位置, 其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,Jaynes 把它描述为概率分布中重力现象(gravitating phenomenon)。

我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一。Jaynes 认为还有一个重要的原因 是正态分布的最大熵性质。在很多时候我们其实没有任何的知识知道数据的真实分布是什么, 但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差, 除此之外没有其它更加有用的信息量。因此按照最大熵的原理,我们应该选择在给定的知识的限制下,选择熵最大的 概率分布,而这就恰好是正态分布。即便数据的真实分布不是正态分布,由于我们对真实分布 一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,那这时候正态分布就是最佳的选择。

当然正态分布还有更多令人着迷的数学性质,我们可以欣赏一下:

  • 二项分布 $B(n,p)$ 在 $n$很大逼近正态分布 $N(np, np(1-p))$
  • 泊松分布 $Poisson(\lambda)$ 在 $\lambda$ 较大时逼近正态分布 $N(\lambda,\lambda)$
  • $\chi^2_{(n)}$在 $n$很大的时候接近正态分布 $N(n,2n)$
  • $t$分布在 $n$ 很大时接近标准正态分布 $N(0,1)$
  • 正态分布的共轭分布还是正态分布
  • 几乎所有的极大似然估计在样本量$n$增大的时候都趋近于正态分布
  • Cramer 分解定理(之前介绍过):如果 $X,Y$ 是独立的随机变量,且 $S=X+Y$ 是正态分布,那么 $X,Y$ 也是正态分布
  • 如果 $X,Y$ 独立且满足正态分布$N(\mu, \sigma^2)$, 那么 $X+Y$, $X-Y$ 独立且同分布,而正态分布是唯一满足这一性质的概率分布
  • 对于两个正态分布$X,Y$, 如果$X,Y$ 不相关则意味着$X,Y$独立,而正态分布是唯一满足这一性质的概率分布

正态分布的前世今生(六)

(六)开疆扩土,正态分布的进一步发展

2.进军近代统计学

花开两朵,各表一枝。上面说了围绕正态分布在概率论中的发展,现在来看看正态分布在数理统计学中发展的故事。 这个故事的领衔主演是 Adolphe Quetelet和高尔顿(Galton)。

由于高斯的工作,正态分布在误差分析迅速确定了自己的定位,有了这么好的工具,我们可能拍脑袋就认为,正态分布很快 就被人们用来分析其它的数据,然而事实却出乎我们的意料,正态分布进入社会领域和自然科学领域,可是经过一番周折的。

首先我要告诉大家一个事实:误差分析和统计学是两个风马牛不相及的两个学科。 当然这个事实存在的时间是19世纪初之前。统计学的产生最初是与“编制国情报告”有关,主要服务于政府部门。 统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据, 是对同一个对象的多次测量。因此观测数据和 统计数据在当时被认为两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。 19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。 而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系, 而与当时的统计学交集非常小。将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星Quetelet。

Quetelet这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。 Quetelet是比利时人,数学博士毕业,年轻的时候曾追谁拉普拉斯学习过概率论。 此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、 国际统计会议之父、近代统计学之父、数理统计学派创始人。 Quetelet 的最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究。

1831年,Quetelet参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。 在这种研究中,Quetelet发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象, 如同自然现象一样也具有一定的规律性。 Quetelet 搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来 对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑, 社会学家们的反对意见主要在于:社会问题 与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据 的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判 断数据同质性的问题。Quetelet大胆地提出:

把一批数据是否能很好地拟合正态分布,作为判断该批数据同质的依据。


Quetelet提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。 由此, Quetelet为正态分布的应用拓展了广阔的舞台。 正态分布如同一把屠龙刀,在Quetelet 的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘, 攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域, 并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。

正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。 高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究遗传进化问题。 受Quetelet的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据, 发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。

然而,对高尔顿而言,这个无处不在的正态性给他带来一些困惑。他考察了亲子两代的身高数据, 发现遵从同一的正态分布,遗传作为一个显著因素是如何发挥作用的?1877年, 高尔顿设计了一个 叫高尔顿钉板(quincunx, 或者Galton board)的装置,模拟正态分布的性质用于解释遗传现象。

如下图中每一点表示钉在板上的一颗钉子,它们彼此的距离均相等。 当小圆球向下降落过程中,碰到钉子后皆以 $\frac{1}{2}$ 的概率向左或向右滚下。 如果有$n$排钉子,则各槽内最终球的个数服从二项分布 $B(n,1/2)$, 当n 较大的时候,接近正态分布。

高尔顿钉板

设想在此装置的中间某个地方 AB 设一个挡板把小球截住,小球将在AB处聚成正态曲线形状,如果挡板上 有许多阀门,打开一些阀门,则在底部形成多个大小不一的正态分布,而最终的大正态分布正式这些小 正态分布的混合。

高尔顿钉板解释遗传现象

高尔顿利用这个装置创造性的把正态分布的性质用于解释遗传现象。 他解释说身高受到显著因素和其它较小因素的影响,每个因素的影响可以表达为 一个正态分布。遗传作为一个显著因素,类似图中底部大小不一的正态分布中的比较大的正态分布, 而多个大小不一正态分布累加之后其结果任然得到一个正态分布。

高尔顿在研究身高的遗传效应的时候,同时发现一个奇特的现象:高个子父母的子女,其身高有 低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到普通人平均身高 去的趋势,这也是“回归”一词最早的含义。高尔顿用二维正态分布去拟合父代和子代身高的数据, 同时引进了回归直线、相关系数的概念,从而开创了回归分析这门技术。

可以说,高尔顿是用统计方法研究生物学的第一人,他用实际行动开拓了Quetelet的思想; 为数理统计学的产生奠定了基础。 无论是 Quetelet 还是高尔顿,他们的统计分析工作都是以正态分布为中心的, 在他们的影响下,正态分布获得了普遍认可和广泛应用,甚至是被滥用, 以至有些学者认为19世纪是正态分布在统计学中占统治地位的时代。

3. 数理统计三剑客

最后,我们来到了20世纪,正态分布的命运如何呢? 如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。 1901年,高尔顿和他的学生卡尔.皮尔逊(Karl Pearson)、韦尔登(W.F.R Weldon) 创办《生物计量(Biometrika)》杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。 统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。

在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以 拉普拉斯中心极限定理为依据,总是归结到正态。到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意: 进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。 由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研 究这种情况下正确的统计方法问题

在这个背景之下,统计学三大分布$\chi^2$分布、$t$分布、$F$分布逐步登上历史舞台。 这三大分布现在的理科本科生都很熟悉。在历史上,这三个分布和来自英国的现代数理 统计学的三大剑客有着密切的关系。

第一位剑客就是卡尔.皮尔逊(Karl Pearson),手中的宝剑就是$\chi^2$分布。 $\chi^2$分布这把宝剑最早的锻造者其实是物理学家麦克斯韦, 他在推导空气分子的运动速度的分布的时候,发现分子速度在三个坐标轴上的分量是正态分布, 而分子运动速度的平方$v^2$符合自由度为3的$\chi^2$分布。麦克斯韦虽然造出了这把宝剑, 但是真正把它挥舞得得心应手、游刃有余的是皮尔逊。在分布曲线 和数据的拟合优度检验中,$\chi^2$分布可是一个利器,而皮尔逊的这个工作被认为是假设检验的开山之作。 皮尔逊继承了高尔顿的衣钵,统计功力深厚,在19世纪末20世纪初很长的一段时间里,一直被数理统计武林 人士尊为德高望重的第一大剑客。

第二位剑客是戈塞特(Gosset),笔名是大家都熟悉的学生氏(Student),而他手中的宝剑是$t$ 分布。戈塞特是化学、数学双学位,依靠自己的化学知识进酿酒厂工作, 工作期间考虑酿酒配方实验中的统计学问题,追谁卡尔.皮尔逊学习了一年的统计学, 最终依靠自己的数学知识打造出了$t$分布这把利剑而青史留名。 1908年,戈塞特提出了正态样本中样本均值和标准差的比值的分布, 并给出了应用上及其重要的第一个分布表。戈塞特在$t$分布的工作是开创了小样本统计学的先河。

第三位剑客是费希尔(R.A.Fisher),手持$F$分布这把宝剑,在一片荒芜中开拓出方差分析的肥沃土地。 $F$分布就是为了纪念费希尔而用他的名字首字母命名的。 费希尔剑法飘逸,在三位剑客中当属费希尔的天赋最高,各种兵器的使用都得心应手。 费希尔统计造诣极高,受高斯的启发,系统的创立了极大似然估计剑法,这套剑法现在被尊为 统计学参数估计中的第一剑法。

费希尔还未出道,皮尔逊已经是统计学的武林盟主了,两人岁数相差了33岁,而戈塞特介于他们中间。 三人在统计学擂台上难免切磋剑术。费希尔天赋极高,年少气盛;而皮尔逊为人强势, 占着自己武林盟主的地位,难免固执己见,以大欺小;费希尔着实受了皮尔逊不少气。 而戈塞特性格温和,经常在两人之间调和。毕竟是长江后浪推前浪,一代新人换旧人, 在众多擂台比试中,费希尔都技高一筹,而最终取代了皮尔逊成为数理统计学第一大剑客。

由于这三大剑客和统计三大分布的出现,正态分布在数理统计学中不再是一枝独秀, 数理统计的领地基本上是被这三大分布抢走了半壁江山。不过这对正态分布而言并非坏事,我们细看这三大分布的数学细节: 假设独立随机变量 $X_i \sim N(0,1), Y_j \sim N(0,1) (i=1\cdots n, j=1\cdots m)$,则满足 三大分布的随机变量可以如下构造出来

  • $\displaystyle \chi_n^2 = X_1^2 + \cdots + X_n^2$
  • $\displaystyle t = \frac{Y_1}{\sqrt{\frac{X_1^2 + \cdots + X_n^2}{n}}}$
  • $\displaystyle F = \frac{\frac{X_1^2 + \cdots + X_n^2}{n}}{\frac{Y_1^2 + \cdots + Y_m^2}{m}} $

你看这三大分布哪一个不是正态分布的嫡系血脉,没有正态分布就生不出$\chi^2$分布、$t$分布、$F$分布。所以正态 分布在19世纪是武则天,进入二十世纪就学了慈禧太后,垂帘听政了。 或者,换个角度说,一个好汉三个帮,正态分布如果是孤家寡人恐怕也难以雄霸天下, 有了统计学三大分布作为开国先锋为它开疆拓土,正态分布真正成为傲世群雄的君王。

20世纪初,统计学这三大剑客成为了现代数理统计学的奠基人。以哥塞特为先驱,费歇尔为主将, 掀起了小样本理论的革命,事实上提升了正态分布在统计学中的地位。 在数理统计学中,除了以正态分布为基础的小样本理论获得了空前的胜利,其它分布上都没有成功的案例, 这不能不让人对正态分布刮目相看。在随后的发展中,相关回归分析、多元分析、方差分析、因子分析、 布朗运动、高斯过程等等诸多统计分析方法陆续登上了历史舞台, 而这些和正态分布密切相关的方法,成为推动现代统计学飞速发展的一个强大动力。

正态分布的前世今生(五)

(六) 开疆扩土,正态分布的进一步发展

19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角, 逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展 成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。

1. 论剑中心极限定理

先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。 1776 年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及 独立随机变量求和的概率计算,也就是计算如下的概率值

 S_n = X_1 + X_2 + \cdots + X_n

P(a < S_n < b) = ?

在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了 特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展, 在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算, 在他的1812年发表的名著《概率分析理论》中给出了中心极限定理的一般描述:

[定理 Laplace, 1812] 假设 $ e_i (i=1, \cdots n)$ 为独立同分布的测量误差, 具有均值$\mu$ 和方差 $\sigma^2$。如果 $\lambda_1, \cdots, \lambda_2$ 为常数,$a>0$, 则有

 \displaystyle P(|\sum_{i=1}^n \lambda_i(e_i - \mu)| \le a \sqrt{\sum_{i=1}^n \lambda_i^2})\approx \frac{2}{\sqrt{2\pi}\sigma} \int_0^a e^{-\frac{x^2}{2\sigma^2}} dx

理科专业的本科生学习《概率论与数理统计》这门课程的时候, 除了学习棣莫弗-拉普拉斯中心极限定理,通常还学习如下中心极限定理的一般形式:

[Lindeberg-Levy 中心极限定理] 设$X_1,\cdots, X_n$ 独立同分布,且具有有限的均值 $\mu$ 和方差 $\sigma^2$ , 则在 $n \rightarrow \infty$ 时,有

 \displaystyle \frac{\sqrt{n}(\bar{X} - \mu)}{\sigma} \rightarrow N(0,1)

多么奇妙的性质,随意的一个概率分布中生成的随机变量, 在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。 概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻, 即便$X_1,\cdots, X_n$ 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终的归宿仍然是正态分布。 一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。 中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着 一本圣经向我证明上帝的存在,我是丝毫不会买账;可是如果他向我展示中心极限定理并且声称那是神迹, 我会很乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并 劝说部落的酋长把正态分布作为他们的图腾。

中心极限定理虽然表述形式简洁,但是严格证明它却非常困难。 中心极限定理就像一张大蜘蛛网,棣莫弗和拉普拉斯编织了它的雏形,可是这张网上漏洞太多,一个多世纪来, 数学家们就像蜘蛛一样前赴后继,努力想把所有的漏洞都补上。 在十九世纪,珀松(Poission)、狄利克莱(Dirichlet)、柯西(Cauchy)、贝塞尔(Bessel)这些大蜘蛛 都曾经试图对把这张网上的漏洞补上。从现代概率论来看角度, 整个十九世纪的经典概率理论并没有能输出一个一般意义下严格的证明。 而真正把漏洞补上的是来自俄罗斯的几位蜘蛛侠:切比雪夫(Chebyshev)、马尔可夫(Markov)和李雅普诺夫(Lyapunov)。 俄罗斯是一个具有优秀的数学传统的民族,产生过几位顶尖的的数学家,在现代概率论的发展中, 俄罗斯的圣彼得堡学派可以算是顶了半边天。 把漏洞补上的严格方案的雏形是从切比雪夫1887年的工作开始的,不过切比雪夫的证明存在一些漏洞。 马尔可夫和李雅普诺夫都是切比雪夫的学生,马尔科夫沿着老师的基于矩法的思路在蜘蛛网上辛勤编织,但洞还是补得不够严实; 李雅普诺夫不像马尔可夫那样深受老师的影响,他沿着拉普拉斯当年提出的基于特征函数的思路,于1901年给出了一个补洞的方法, 切比雪夫对这个方法大加赞赏,李雅普诺夫的证明被认为是第一个在一般条件下的严格证明; 而马尔科夫也不甘示弱,在1913年基于矩法也把洞给补严实了。

20世纪初期到中期,中心极限定理的研究几乎吸引了所有的概率学家,这个定理俨然成为了概率论的明珠,成为了各大概率论 武林高手华山论剑的场所。不知道大家对中心极限定理中的“中心”一词如何理解,许多人都认为"中心"这个词描述的是这个定理的 行为:以正态分布为中心。这个解释看起来确实合情合理,不过并不符合该定理被冠名的历史。 事实上,20世纪初概率学家大都称呼该定理为极限定理(Limit Theorem),由于该定理在概率论中 处于如此重要的中心位置,如此之多的概率学武林高手为它魂牵梦绕, 于是数学家波利亚(Polya)于1920年在该定理前面冠以"中心"一词,由此后续人们都称之为中心极限定理。


论剑中心极限定理

数学家们总是及其严谨苛刻的,给定了一个条件下严格证明了中心极限定理。数学家就开始 探寻中心极限定理成立的各种条件,询问这个条件是否充分必要条件,并且进一步追问序列和在该条件下以 什么样的速度收敛到正态分布。 1922年 Lindeberg 基于一个比较宽泛容易满足的条件,给中心极限定理提出了一个很容易理解的初等证明。 这个条件我们现在称之为Lindeberg 条件。然后概率学家 Feller 和 Levy 就开始追问Lindeberg 条件是充分必要的吗? 基于 Lindeberg 的工作, Feller 和 Levy 都于 1935 年独立的得到了中心极限定理成立的充分必要条件, 这个条件可以用直观的非数学语言描述如下:

[中心极限定理充要条件]  假设独立随机变量序列 $X_i$ 的中值为0, 要使序列和 $S=\sum_{i=1}^n X_i$ 的分布函数逼近正态分布,以下条件是充分必要的:

  1. 如果 $X_i$相对于序列和$S$的散布(也就是标准差)是不可忽略的,则 $X_i$ 的分布必须接近正态分布
  2. 对于所有可忽略的 $X_i$, 取绝对值最大的那一项,相对于可忽略项这个子序列和的散布,这个绝对值也是可忽略的

事实上这个充分必要条件发现的优先权,Feller 和 Levy 之间还出现了一定的争论。 在 Levy 证明这个充分必要条件的过程中, Levy发现了正态分布的一个有趣的性质。 我们在数理统计中都学过,如果两个独立随机变量 $X,Y$ 具有正态分布,则$S=X+Y$ 也具有正态分布。奇妙的是这个定理的逆定理也成立:

[正态分布的血统] 如果 $X,Y$ 是独立的随机变量,且 $S=X+Y$ 是正态分布,那么 $X,Y$ 也是正态分布。

正态分布真是很奇妙,就像蚯蚓一样具有再生的性质,你把它一刀两断,它生成两个正态分布; 或者说正态分布具有及其高贵的优良血统,正态分布的组成成分中只能包含正态分布,而不可能含有其它杂质。 1928 年 Levy 就猜到了这个定理,并使用这个定理于1935年对中心极限定理的充分必要条件作了证明。 但是 Levy 却无法证明正态分布的这个看上去及其简单的再生性质。直到 1936 年 Cramer 才给出了证明。

中心极限定理成为了现代概率论中首屈一指的定理,事实上中心极限定理在现代概率论里面已经不是指一个定理, 而是指一系列相关的定理。 统计学家们也基于该定理不断的完善拉普拉斯提出的元误差理论(the hypothesis of elementary errors), 并据此解释为何世界上正态分布如此常见。而中心极限定理同时成为了现代统计学中大样本理论的基础。