月度归档:2009年06月

自动作文评分与自然语言处理

  前些天一个学弟发邮件咨询有关自动作文评分的问题,在了解了这是他们导师布置的一个任务后,出于做统计机器翻译的惯性思维,我马上想到的是利用语言模型对作文进行流利度方面的打分,但也意识到这是一个粗糙的甚至是错误的评分系统,因为它连最基本的作文长度都没有考虑。 继续阅读

HMM学习最佳范例四:隐马尔科夫模型

四、隐马尔科夫模型(Hidden Markov Models)

1、定义(Definition of a hidden Markov model)
  一个隐马尔科夫模型是一个三元组(pi, A, B)。 继续阅读

HMM学习最佳范例三:隐藏模式

三、隐藏模式(Hidden Patterns)

1、马尔科夫过程的局限性
  在某些情况下,我们希望找到的模式用马尔科夫过程描述还显得不充分。回顾一下天气那个例子,一个隐士也许不能够直接获取到天气的观察情况,但是他有一些水藻。民间传说告诉我们水藻的状态与天气状态有一定的概率关系——天气和水藻的状态是紧密相关的。 继续阅读

关注第五届全国机器翻译研讨会

  去年11月底曾去自动化所参加了“第四届全国机器翻译研讨会”,印象深刻,并因此写了一篇《第四届机器翻译研讨会感受》。转眼间“第五届全国机器翻译研讨会”10月份就要在南京举行了,有兴趣的读者可以关注一下。 继续阅读

HMM学习最佳范例二:生成模式

二、生成模式(Generating Patterns)

1、确定性模式(Deterministic Patterns)
  考虑一套交通信号灯,灯的颜色变化序列依次是红色-红色/黄色-绿色-黄色-红色。这个序列可以作为一个状态机器,交通信号灯的不同状态都紧跟着上一个状态。 继续阅读

几种不同程序语言的HMM版本

  “纸上得来终觉浅,绝知此事要躬行”,在继续翻译《HMM学习最佳范例》之前,这里先补充几个不同程序语言实现的HMM版本,主要参考了维基百科。读者有兴趣的话可以研究一下代码,这样对于HMM的学习会深刻很多! 继续阅读

Ubuntu 64位系统下SRILM的配置详解

  这篇文章是师弟YYL写给52nlp的。实验室机器的cpu是intel 64位的,而我安装的是Ubuntu8.10的32位版本,因此《Ubuntu8.10下moses测试平台搭建全记录》里的SRILM的编译方法只适用于32位的系统。师弟新装了Ubuntu 9.04 64位的桌面版,发现参照我的方法和其他人写的SRILM编译方法并不合适,而关于64位系统下编译SRILM的文章又很少,于是给52nlp写了这篇文章,这里非常感谢! 继续阅读

HMM学习最佳范例一:介绍

  隐马尔科夫模型(HMM)依然是读者访问“我爱自然语言处理”的一个热门相关关键词,我曾在《HMM学习最佳范例与崔晓源的博客》中介绍过国外的一个不错的HMM学习教程,并且国内崔晓源师兄有一个相应的翻译版本,不过这个版本比较简化和粗略,有些地方只是概况性的翻译了一下,省去了一些内容,所以从今天开始计划在52nlp上系统的重新翻译这个学习教程,希望对大家有点用。 继续阅读