标签归档:马尔可夫链蒙特卡罗方法

PRML读书会第十一章 Sampling Methods

Deep Learning Specialization on Coursera

PRML读书会第十一章 Sampling Methods

主讲人 网络上的尼采

(新浪微博: @Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:05:00
今天的主要内容:Markov Chain Monte Carlo,Metropolis-Hastings,Gibbs Sampling,Slice Sampling,Hybrid Monte Carlo。

上一章讲到的平均场是统计物理学中常用的一种思想,将无法处理的复杂多体问题分解成可以处理的单体问题来近似,变分推断便是在平均场的假设约束下求泛函L(Q)极值的最优化问题,好处在于求解过程中可以推出精致的解析解。变分是从最优化的角度通过坐标上升法收敛到局部最优,这一章我们将通过计算从动力学角度见证Markov Chain Monte Carlo收敛到平稳分布。

先说sampling的原因,因为统计学中经常会遇到对复杂的分布做加和与积分,这往往是intractable的。MCMC方法出现后贝叶斯方法才得以发展,因为在那之前对不可观测变量(包括隐变量和参数)后验分布积分非常困难,对于这个问题上一章变分用的解决办法是通过最优化方法寻找一个和不可观测变量后验分布p(Z|X)近似的分布,这一章我们看下sampling的解决方法,举个简单的例子:比如我们遇到这种形式,z是个连续随机变量,p(z)是它的分布,我们求f(z)的期望。如果我们从p(z)中sampling一个数据集z(l),然后再求个平均来近似f(z)的期望so,问题就解决了,关键是如何从p(z)中做无偏的sampling。
为了说明sampling的作用,我们先举个EM的例子,最大似然计算中求分布的积分问题,我们在第九章提到了,完整数据的log似然函数是对隐变量Z的积分:
继续阅读

“眼泪”与“门外汉”——向自然语言处理的大牛们学习

Deep Learning Specialization on Coursera

  不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。 继续阅读