月度归档:2009年11月

贝叶斯模型文献阅读指南

Deep Learning Specialization on Coursera

  估计有些读者已经读了Kevin Knight教授的“Bayesian Inference with Tears”,在这篇为自然语言处理研究者写的关于贝叶斯推理的指南性文章中,他同时提到了:
  “I’ve assembled this tutorial workbook from natural language papers that I’ve tried to understand. If you want to read original work, check out Sharon Goldwater’s reading list on the web. ” 继续阅读

一些自然语言处理及计算语言学相关的课件

Deep Learning Specialization on Coursera

  翻了一下自己的硬盘,整理了一些自然语言处理及计算语言学方面的课件,放在网络硬盘上做个备份,同时提供下载,估计对初学者比较有用。 继续阅读

HMM在自然语言处理中的应用一:词性标注5

Deep Learning Specialization on Coursera

  上一节我们谈完了Resnik教授基于UMDHMM设计的词性标注的练习,不过自始至终,还没有见到一个词性标记的影子。虽然这一过程展示了自然语言处理中EM算法在无监督学习任务中的重要作用,但是这类方法的标注准确性还相对较低,在实际应用中多是那些建立在有词性标注训练集基础上的机器学习算法,如最大熵模型、决策树等,所学习的词性标注器能获得较高的标注准确率。本节我们就以一个标注好的训练集为基础,来学习一个最简单的HMM词性标注器。 继续阅读

“眼泪”与“门外汉”——向自然语言处理的大牛们学习

Deep Learning Specialization on Coursera

  不知道今年的什么时候,机器翻译领域的骑士Kevin Knight教授为自然语言处理研究者写了一篇关于贝叶斯推理的指南性文章“Bayesian Inference with Tears: a tutorial workbook for natural language researchers”,我大概一个月以前翻阅他的个人主页时看到了,粗略的阅读了一遍,印象深刻的是他提到EM算法的时候把写作“A Statistical MT Tutorial Workbook”的缘由交代了一段话,这段话我在《统计机器翻译文献阅读指南》中也作了引用。 继续阅读

HMM在自然语言处理中的应用一:词性标注4

Deep Learning Specialization on Coursera

  在继续昨晚的工作之前,先聊两句Philip Resnik教授。作为美国马里兰大学的教授,他的主要研究领域是自然语言处理,不过最近他被美国某个网站评为“当代卫生保健领域最具创新性和最有影响力的百位革新者之一(the most creative and influential innovators working in healthcare today)" ,Resnik教授也非常吃惊(Much to my surprise),之所以入选,再于他利用自然语言处理来提高医用编码(medical coding)的水平,具体什么是医用编码我不太清楚,不过这项工作至少说明自然语言处理还是有相当的应用前景的。 继续阅读

HMM在自然语言处理中的应用一:词性标注3

Deep Learning Specialization on Coursera

  原计划这一节讲解如何利用UMDHMM这个HMM工具包来实现一个toy版本的HMM词性标注器,自己也写了几个相关的小脚本,不过由于处理过程中需要借用Philip Resnik教授写的另外几个小脚本,所以这里先介绍一下他的工作。 继续阅读

提供几本自然语言处理书

Deep Learning Specialization on Coursera

注:因为有许多同学留言,这里更新一下,之前的一些资源换过几个地方(包括xun6, 新浪爱问,百度网盘公开课链接)都沦陷了,加上自己的电脑换了两次,很多备份都年久失修不知所宗,所以留下了几个重要的放到“资源”页面下的链接,请需要的同学直接在资源链接里找(也有很多没有),或者最好的方法就是google。
  
找了一个网络硬盘,把手上的几本自然语言处理相关书籍的电子版放了上去,有需要的读者可以去“资源”页面或者如下链接下载!如有不妥,我会做删除处理! 继续阅读

HMM在自然语言处理中的应用一:词性标注2

Deep Learning Specialization on Coursera

  上一节我们对自然语言处理中词性标注的基本问题进行了描述,从本节开始我们将详细介绍HMM与词性标注的关系以及如何利用HMM进行词性标注。首先回顾一下隐马尔科夫模型(HMM)的定义和三大基本问题,并由此与词性标注的基本问题进行一个对比。 继续阅读

最大熵模型文献阅读指南

Deep Learning Specialization on Coursera

  最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”,写得不错,就放到这里作为最大熵模型文献阅读指南了。 继续阅读

HMM在自然语言处理中的应用一:词性标注1

Deep Learning Specialization on Coursera

  词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。因此,在关于自然语言处理的书籍中,都会将词性标注单列一章重点讲解,对此有兴趣的读者可参考《自然语言处理综论》第一版第8章或《统计自然语言处理基础》第10章,本文部分内容也参考自这两本自然语言处理的经典书籍。 继续阅读