标签归档:Gibbs Sampling

概率语言模型及其变形系列-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下

第一篇:PLSA及EM算法

第二篇:LDA及Gibbs Samping

第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等

第四篇:基于变形LDA的paper分类总结

第五篇:LDA Gibbs Sampling 的JAVA实现

第二篇 LDA及Gibbs Sampling

[Update 2012/12/21 为了解决部分朋友反映的网页图片无法显示的问题,更新PDF版本

下载地址 LDA及Gibbs Sampling-yangliuy]

1 LDA概要

LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型,应用到文本建模范畴,就是对文本进行“隐性语义分析”(LSA),目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集。
继续阅读

“眼泪”与“门外汉”——向自然语言处理的大牛们学习

  不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。 继续阅读