“眼泪”与“门外汉”——向自然语言处理的大牛们学习

  不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。
  与“A Statistical MT Tutorial Workbook”异曲同工,“Bayesian Inference with Tears”算得上是一篇比较通俗的介绍文章,非常值得推敲,不过Knight老师起的这个题目却让我有点摸不着边,想把它翻译成中文,却又不知如何下笔,直译的话就是“贝叶斯推理与眼泪”了,但是这样的翻译感觉好怪,也许只有弄明白这篇文章才能解释其中的奥秘了!如果读者朋友有明白的,也请在这里分享一下!非常感谢!
  前几天写HMM与词性标注的文章,顺便关注了一下Philip Resnik教授的个人主页,置顶的一篇文章是“Gibbs Sampling for the Uninitiated”,查了一下,“Uninitiated”可以翻译为“门外汉”,而“Gibbs Sampling”我在论文里见过几回,没有深究,也不明白,完全是个“门外汉”,于是粗略的读了一下这个文章的介绍,其主旨便是向尝试利用马尔可夫链蒙特卡罗方法,尤其是在文本处理中利用贝叶斯模型进行推理的计算机工作者介绍相关技术(This document is intended for computer scientists who would like to try out a Markov Chain Monte Carlo (MCMC) technique, particularly in order to do inference with Bayesian models on problems related to text processing),马尔科夫链我清楚,蒙特卡洛方法大学时学数学时用过,但是合在一起的“马尔可夫链蒙特卡罗方法(MCMC)”对我来说完全是一个新名词。
  另外关于Gibbs Sampling,作为MCMC的一种方法,主要是用来对积分求近似解的。Resnik教授先提了“为什么用积分(Why integrals)”:许多计算机科学工作者,尤其是我们这些搞(统计)自然语言处理的,将主要精力花在了离散事件上而忽略了积分的重要性等等。另外,关于积分的求法,数学课本里教的方法只适用于做课本里的数学题,但是并不能解决现实事件的有趣问题,因此Sampling便有用了。
  我读论文一般都会看一下它的参考文献,而Resnik教授的这篇文章的参考之一便是“Bayesian Inference with Tears”,于是我又回头仔细读Knight教授的这篇文章,才发现文中主要是解读了自然语言处理中的一些无监督学习的任务,譬如中文分词、词性标注、词对齐等,对于这些任务,如果有一个好的训练集,那么就很简单了,但是“what’s fun about that”,大牛们总喜欢做一些有挑战的工作。
  Knight教授在举例前也着重推荐了一下Resnik教授的“Gibbs Sampling for the Uninitiated”,看来英雄惜英雄,古今中外,从来都一样!他们俩关系可不一般,前者本科毕业于哈佛大学计算机科学系(86级),后者本科毕业于哈佛大学计算机科学系(87级),同为一个院系的校友,不过两篇文章绝不是靠关系相互推荐的!
  nlpers博客11月6号同样将这两篇文章捆绑销售:
  “This isn’t so much a post in the “GSI” series, but just two links that recently came out. Kevin Knight and Philip Resnik both just came out with tutorials for Bayesian NLP. They’re both excellent, and almost entirely non-redundant. I highly recommend reading both. And I thank Kevin and Philip from the bottom of my heart, since I’d been toying with the idea of writing such a thing (for a few years!) and they’ve saved me the effort. I’d probably start with Kevin’s and then move on to Philip’s (which is more technically meaty), but either order is really fine.”
  所以,要向这些自然语言处理领域的大牛们学习,那么就读读他们最近写的文章吧:
  • Bayesian Inference with Tears by Kevin
  • Gibbs Sampling for the Uninitiated by Philip

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/tears-and-uninitiated-learn-from-natural-language-processing-heros

此条目发表在自然语言处理, 随笔分类目录,贴了, , , , , , 标签。将固定链接加入收藏夹。

“眼泪”与“门外汉”——向自然语言处理的大牛们学习》有 16 条评论

  1. shiquan说:

    Bayesian with tear 看了之后感觉是讲了一种unsupervised learning的新方法,以及这种方法与EM的比较。最终的感觉是除了多了解了一些gibbs sampleing,其他的没有什么特别的收获。

    [回复]

    52nlp 回复:

    算的上是一种抛砖引玉吧,如果想深入的了解这方面的东西,可能需要看更多的资料了!

    [回复]

  2. bin说:

    With tears似乎应该译为含泪,用来形容作者学习Bayesian Inference的艰辛。

    [回复]

    52nlp 回复:

    非常感谢,这样解释真好!

    [回复]

  3. windtalker说:

    with tear我想应该来自于著名的“莫斯科不相信眼泪”吧。

    好像以前看过一片without tears 关于gibbs smapling 还是Bayesian的,意思应该是让你不象想像中那么痛苦的学习。。。

    我猜的:)

    [回复]

    52nlp 回复:

    呵呵,解释的很妙,谢谢!

    [回复]

  4. Yu Yifeng说:

    应该是以概率Parser大师Charniak早期的一篇文章Bayesian Networks without Tears为典故。那是1991年统计方法引入NLP之初,许多NLP学者对Bayesian Networks理解吃力,Charniak为此写了这篇通俗的介绍,他想让大家都能轻轻松松学习概率方法。可是我想,与Knight一样,没有几个学统计NLP的人不经过流泪阶段的,本人涉足二年,正处水深火热中。感谢52NLP提供此平台,让我多了解这个领域的信息。

    [回复]

    52nlp 回复:

    谢谢你让我知道了这个典故,感觉这样解释更靠谱了!欢迎有机会在这里分享NLP方面的心得!

    [回复]

    rchan 回复:

    这篇文章似乎就发在91年的ai magzine,之前碰巧读过

    [回复]

    xueyayang@gmail.com 回复:

    我是看”Bayesian statistics without tears: a sampling-resampling perspective”-Smith and Gelfand这篇文章时,不理解这个without tears什么意思,找到这儿来的。谢谢你,让我知道了这个典故。

    [回复]

  5. raogaoqi说:

    with tear翻成“吐血”会不会是蛮有感的:)

    [回复]

    52nlp 回复:

    的确“有感”,但是我感觉很多人看到“吐血”后会“知难而退”的!

    [回复]

  6. Pingback引用通告: 建议的程序员学习LDA算法的步骤

  7. Pingback引用通告: Thought this was cool: 建议的程序员学习LDA算法的步骤 « CWYAlpha

  8. Pingback引用通告: Thought this was cool: 突然有一种紧迫感:再不上中文NLP,可能就错过时代机遇了 « CWYAlpha

  9. 牛牛牛说:

    文末两位教授的文章链接地址好像不对,请博主关注一下哈。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注