标签归档:Gibbs Sampling

PRML读书会第十一章 Sampling Methods

PRML读书会第十一章 Sampling Methods

主讲人 网络上的尼采

(新浪微博: @Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:05:00
今天的主要内容:Markov Chain Monte Carlo,Metropolis-Hastings,Gibbs Sampling,Slice Sampling,Hybrid Monte Carlo。

上一章讲到的平均场是统计物理学中常用的一种思想,将无法处理的复杂多体问题分解成可以处理的单体问题来近似,变分推断便是在平均场的假设约束下求泛函L(Q)极值的最优化问题,好处在于求解过程中可以推出精致的解析解。变分是从最优化的角度通过坐标上升法收敛到局部最优,这一章我们将通过计算从动力学角度见证Markov Chain Monte Carlo收敛到平稳分布。

先说sampling的原因,因为统计学中经常会遇到对复杂的分布做加和与积分,这往往是intractable的。MCMC方法出现后贝叶斯方法才得以发展,因为在那之前对不可观测变量(包括隐变量和参数)后验分布积分非常困难,对于这个问题上一章变分用的解决办法是通过最优化方法寻找一个和不可观测变量后验分布p(Z|X)近似的分布,这一章我们看下sampling的解决方法,举个简单的例子:比如我们遇到这种形式,z是个连续随机变量,p(z)是它的分布,我们求f(z)的期望。如果我们从p(z)中sampling一个数据集z(l),然后再求个平均来近似f(z)的期望so,问题就解决了,关键是如何从p(z)中做无偏的sampling。
为了说明sampling的作用,我们先举个EM的例子,最大似然计算中求分布的积分问题,我们在第九章提到了,完整数据的log似然函数是对隐变量Z的积分:
继续阅读

概率语言模型及其变形系列-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇:PLSA及EM算法

第二篇:LDA及Gibbs Samping

第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等

第四篇:基于变形LDA的paper分类总结

第五篇:LDA Gibbs Sampling 的JAVA实现

第二篇 LDA及Gibbs Sampling

[Update 2012/12/21 为了解决部分朋友反映的网页图片无法显示的问题,更新PDF版本

下载地址 LDA及Gibbs Sampling-yangliuy]

1 LDA概要

LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型,应用到文本建模范畴,就是对文本进行“隐性语义分析”(LSA),目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集。
继续阅读

“眼泪”与“门外汉”——向自然语言处理的大牛们学习

  不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。 继续阅读