标签归档:hmm

HMM相关文章索引

HMM系列文章是52nlp上访问量较高的一批文章,这里做个索引,方便大家参考。

HMM学习

  • HMM学习最佳范例一:介绍
  • HMM学习最佳范例二:生成模式
  • HMM学习最佳范例三:隐藏模式
  • HMM学习最佳范例四:隐马尔科夫模型
  • HMM学习最佳范例五:前向算法
  • HMM学习最佳范例六:维特比算法
  • HMM学习最佳范例七:前向-后向算法
  • HMM学习最佳范例八:总结
  • HMM学习最佳范例全文文档PDF百度网盘-密码f7az
  • HMM相关

  • wiki上一个比较好的HMM例子
  • 几种不同程序语言的HMM版本
  • HMM应用

  • HMM词性标注
  • HMM中文分词
  • PRML读书会第十三章 Sequential Data

    PRML读书会第十三章 Sequential Data

    主讲人 张巍

    (新浪微博: @张巍_ISCAS

    软件所-张巍<zh3f@qq.com> 19:01:27
    我们开始吧,十三章是关于序列数据,现实中很多数据是有前后关系的,例如语音或者DNA序列,例子就不多举了,对于这类数据我们很自然会想到用马尔科夫链来建模:

    例如直接假设观测数据之间服从一阶马尔科夫链,这个假设显然太简单了,因为很多数据时明显有高阶相关性的,一个解决方法是用高阶马尔科夫链建模:

    但这样并不能完全解决问题 :1、高阶马尔科夫模型参数太多;2、数据间的相关性仍然受阶数限制。一个好的解决方法,是引入一层隐变量,建立如下的模型:

    继续阅读

    中文分词入门之字标注法全文文档

    将“中文分词入门之字标注法”这个系列整理成了一个PDF文档放到微盘中了,感兴趣的同学可以下载:

    微盘:中文分词入门之字标注法.pdf
    百度网盘:中文分词入门之字标注法.pdf

    如果愿意看网页,也可以从这个标签进入:字标注中文分词

    另外在上一节关于CRF中文分词的介绍中,通过CRF++训练了一个CRF中文分词模型,实际训练的时间比较长,为了方便大家测试,也把这个CRF模型上传到微盘了,感兴趣的同学可以下载:crf_model

    注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

    本文链接地址:http://www.52nlp.cn/中文分词入门之字标注法全文文档

    中文分词入门之字标注法2

      虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。 继续阅读

    中文分词入门之字标注法1

      在《自然语言处理领域的两种创新观念》中,张俊林博士谈了两种创新模式:一种创新是研究模式的颠覆,另外一种创新是应用创新,前者需要NLP领域出现爱因斯坦式的革新人物,后者则是强调用同样的核心技术做不一样的应用。 继续阅读

    “我爱自然语言处理”一周岁

      “我爱自然语言处理”一周岁——依然谢谢所有关心52nlp的读者!
      这一年来,有11284位读者在这里或长或短的参观过;有24511次访问数;有89828的综合浏览量;有平均6分09秒的网站停留时间;有167篇文章;有186条读者评论;有稳定的Google;也有变化无常的百度。
      这一年来,做的最成功的系列是关于隐马尔科夫模型的介绍文章《HMM学习最佳范例》,而最开心的则莫过于订阅读者数的节节攀升了。
      欢迎大家继续关注52nlp,我也会继续写一些与自然语言处理相关的文章放在这里,也非常欢迎有兴趣的nlpers加入! 继续阅读

    HMM在自然语言处理中的应用一:词性标注6

      有一段时间没有谈HMM和词性标注了,今天我们继续这个系列的最后一个部分:介绍一个开源的HMM词性标注工具并且利用Brown语料库构造一个英文词性标注器。
      上一节借用umdhmm构造的HMM词性标注工具是二元语法(bigram)标注器,因为我们只考虑了前一个词性标记和当前词性标记,算的上是最基本的马尔科夫模型标注器。这个HMM词性标注器可以通过好几种方式进行扩展,一种方式就是考虑更多的上下文,不只考虑前面一个词性标记,而是考虑前面两个词性标记,这样的标注器称之为三元语法(trigram)标注器,是非常经典的一种词性标注方法,在《自然语言处理综论》及《统计自然语言处理基础》中被拿来介绍。 继续阅读

    HMM在自然语言处理中的应用一:词性标注5

      上一节我们谈完了Resnik教授基于UMDHMM设计的词性标注的练习,不过自始至终,还没有见到一个词性标记的影子。虽然这一过程展示了自然语言处理中EM算法在无监督学习任务中的重要作用,但是这类方法的标注准确性还相对较低,在实际应用中多是那些建立在有词性标注训练集基础上的机器学习算法,如最大熵模型、决策树等,所学习的词性标注器能获得较高的标注准确率。本节我们就以一个标注好的训练集为基础,来学习一个最简单的HMM词性标注器。 继续阅读

    HMM在自然语言处理中的应用一:词性标注4

      在继续昨晚的工作之前,先聊两句Philip Resnik教授。作为美国马里兰大学的教授,他的主要研究领域是自然语言处理,不过最近他被美国某个网站评为“当代卫生保健领域最具创新性和最有影响力的百位革新者之一(the most creative and influential innovators working in healthcare today)" ,Resnik教授也非常吃惊(Much to my surprise),之所以入选,再于他利用自然语言处理来提高医用编码(medical coding)的水平,具体什么是医用编码我不太清楚,不过这项工作至少说明自然语言处理还是有相当的应用前景的。 继续阅读

    HMM在自然语言处理中的应用一:词性标注3

      原计划这一节讲解如何利用UMDHMM这个HMM工具包来实现一个toy版本的HMM词性标注器,自己也写了几个相关的小脚本,不过由于处理过程中需要借用Philip Resnik教授写的另外几个小脚本,所以这里先介绍一下他的工作。 继续阅读