HMM在自然语言处理中的应用一：词性标注4

作者52nlp

11 月 13, 2009 #hmm, #hmm应用, #Philip Resnik, #UMDHMM, #层次短语模型, #标注, #统计机器翻译, #自然语言处理, #蒋伟, #词性标注, #隐马尔科夫模型

　　在继续昨晚的工作之前，先聊两句Philip Resnik教授。作为美国马里兰大学的教授，他的主要研究领域是自然语言处理，不过最近他被美国某个网站评为“当代卫生保健领域最具创新性和最有影响力的百位革新者之一(the most creative and influential innovators working in healthcare today)" ,Resnik教授也非常吃惊（Much to my surprise），之所以入选，再于他利用自然语言处理来提高医用编码（medical coding）的水平，具体什么是医用编码我不太清楚，不过这项工作至少说明自然语言处理还是有相当的应用前景的。
　　另外，05年的时候，他的一个学生开发了一套统计机器翻译系统，取名为“Hiero”，在当年NIST机器翻译评测中表现出色，虽然没有拿到第一，但是其提出的“层次短语模型”的论文获得了当年ACL的最佳论文，此人名叫David Chiang ，中文名蒋伟。
　　一年之前有一段时间我对Web平行语料库自动采集比较感兴趣，就找了很多这方面的paper,其中最有名的当属Resnik教授的Strand和LDC的BITS了，只是当时没有仔细考虑过他是何方神圣。今天仔细读了一下他的个人主页，觉得他在自然语言处理领域也是一个比较神奇的人物，有兴趣的读者不妨看看他的这个主页，对于扩展研究思路和把握当前的研究动态还是非常有好处的。好了，以下我们转入HMM词性标注的正题。

　　在将训练集转换成UMDHMM需要的形式后，就可以利用UMDHMM中编译好的可执行程序esthmm来训练HMM模型了。esthmm的作用是，对于给定的观察符号序列，利用BaumWelch算法（前向-后向算法）学习隐马尔科夫模型HMM。这里采用如下的命令训练HMM模型：
　　../esthmm -N 7 -M 13 example0.seq > example0.hmm
　　其中 N指示的隐藏状态数目，这里代表词性标记，这个例子中可以随便选，我选的是7，下一节会用到。注意Resnik教授给出的命令：
　　esthmm 6 13 example0.seq > example0.hmm
　　是错误的，需要加上”-N”和“-M”。example0.hmm的部分形式如下：

M= 13
N= 7
A:
0.001002 0.001003 0.001000 0.001000 0.462993 0.001000 0.538002
...
B:
0.001000 0.366300 0.420021 0.215676 0.001000 0.001001 0.001001 0.001000 0.001001 0.001000 0.001000 0.001001 0.001000
...
pi:
0.001000 0.001000 0.001005 0.001000 0.001000 0.999995 0.001000

　　抛开这个HMM模型的效果如何，这里不得不感叹前向－后向算法或者EM算法的神奇。当然这里只是一个练习，实际处理中需要加上一些辅助手段，譬如词典之类的，这种无监督的学习是非常有难度的。
　　有了这个HMM模型，就可以作些练习了。首先我们利用genseq来随机生成句子：
　　../genseq -T 10 example0.hmm > example0.sen.seq
　　其中T指示的是输出序列的长度，如下所示：

T= 10
8 12 4 5 9 3 7 5 9 3

　　注意 Resink教授给出的命令仍然是错的，上面的输出结果可读性不好，读者可以对照着example0.key将这个句子写出来，不过Resnik教授写了一个ints2words.pl的脚本，帮助我们完成了这件事：
　　../ints2words.pl example0.key < example0.sen.seq > example0.sen
　　example0.sen中包含的就是这个HMM模型随机生成的句子：

a large fly . who can see . who can

　　虽然不是一句整句，但是局部还是可读的，注意这两步可以利用管道命令合并在一起：
　　../genseq -T 10 example0.hmm | ../ints2words.pl example0.key
　　注意每次的结果并不相同。
　　最后一个练习也是最重要的一个：对于一个测试句子寻找其最可能的隐藏状态序列（Finding the Hidden State Sequence for a Test Sentence），对于本文来说，也就是词性序列了。我们使用testvit来完成这个任务，当然，前提是先准备好测试句子。可以根据exampl0.key中的单词和标点自己组织句子，也可以利用上一个练习随机生成一个句子，不过我选择了训练集中的第91句，比较典型：

the can can destroy the typical fly .

　　虽然违背了自然语言处理中实验的训练集与测试集分离的原则，不过考虑到这只是一个练习，另外也是为下一节做个小准备，我们就以此句话为例建立一个文件example0.test.words。不过UMDHMM还是只认数字，所以Resnik教授有为我们写了一个words2seq.pl处理此事：
　　../words2seq.pl example0.key < example0.test.words > example0.test
　　example0.test就是UMDHMM可以使用的测试集了，如下所示：

T= 8
1 3 3 13 1 6 4 5

　　现在就可以使用testvit，这次Resnik教授没有写错：
　　../testvit example0.hmm example0.test
　　看到结果了吗？我们得到了一个隐藏状态序列：

…
Optimal state sequence:
T= 8
6 1 5 2 6 3 1 7
…

　　如果之前你已经建立好了隐藏状态与词性标记的一一映射，那么就可以把它们所对应的词性标记一个一个写出来了！这个词性标注结果是否与你的期望一样？
　　如果你还没有建立这个映射，那么就可以好好发挥一下想象力了！无论如何，恭喜你和52nlp一起完成了Philip Resnik教授布置的这个练习。

未完待续：词性标注5

注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4

作者 52nlp

LLm 自然语言处理预训练模型

《HMM在自然语言处理中的应用一：词性标注4》有11条评论

Mars说道：

2009年11月14号 05:45

David Chiang那篇论文扩展以后发在CL上了。另外，明年naacl是他们主办。呵呵，不过好像跟主题没什么关系：）

[回复]
52nlp 回复:
14 11 月, 2009 at 11:12
写得有点一本正经了，因为很多人都知道David Chiang,所以就提到这里说说他们之间的关系了，算个小八卦，和主题的确没啥关系！

[回复]
menuvb说道：

2011年01月13号 14:55

首先感谢这篇文章，让我对HMM的词性标注有了整体的印像。但是我这里有一个小的疑问：隐藏状态与词性标记的映射如何对应起来？这篇的测试例子下来我感觉7个状态是系统随机生成1-7个状态，并没有手工对应起来，如果在生成7个状态之前手工对应标注？还希望52NLP同学给个提示。

[回复]
52nlp 回复:
14 1 月, 2011 at 13:36
隐藏状态与词性标记的映射如何对应起来？这个本身就是对应的吧。

手工对应和随机对应应该是一致的吧，只是这里用数字代表而已。

[回复]
menuvb 回复:
15 1 月, 2011 at 15:13
先感谢52nlp的回复，看了你的第5篇HMM应用的文章，我基本上已经解决我前面提的疑问。所以我现在也可以回答我前面的问题，
纯粹针对这篇文章（第4篇），我并不认为手工对应和随机对应应该是一致的，因为umdhmm学习的时候针对词性它是系统按照数字从小到大的生成的，然后再去对应，并不代表1就是名词，2就是动词。实际上你的第5篇文章已经回答了我的问题。
最后还是非常感谢你的这一系列的文章。我是纯粹初学者，只是想试试利用hmm应用在中文的命名实体实别。

[回复]
52nlp 回复:
15 1 月, 2011 at 20:24
解决就好！不过我所说的一致的并不是指“1就是名词，2就是动词”，而是一个id而已。
learning说道：

2011年04月15号 17:15

博主您好，我看到把似英语文本数字化后进行了训练，但是自始至终和“词性”一点都没关联起来啊？？

[回复]
52nlp 回复:
17 4 月, 2011 at 17:45
"如果之前你已经建立好了隐藏状态与词性标记的一一映射", 这里的隐藏状态的数字代表的就是词性标记，你可以认为1就是动词，二是名词，依次类推，用数字只是方便而已。

[回复]
learning 回复:
17 4 月, 2011 at 17:59
非常感谢博主的回答，但我还是不太明白。这个一一映射是根据什么建立起来的呢，或者说是怎么建立起来的？1代表某个词，2又代表某个词等等，这是根据什么得来的？

[回复]
52nlp 回复:
19 4 月, 2011 at 13:06
这个只要你有个词性标记文件，就可以做个map映射，用的时候先转换成数字，做完后在转化成词性，没有什么依据，可以随便指定谁是1，谁是2，但是完成之后必须按你的指定在还原回来。
qinb说道：

2016年07月12号 11:51

博主你好，上面的几个solaris.tar.gz链接都打不开，烦请发一份给我，非常感谢！
邮箱地址：qinb@mail.ustc.edu.cn

[回复]

HMM在自然语言处理中的应用一：词性标注4

作者52nlp

作者 52nlp

相关文章

Qwen3来了，全尺寸开源，性能拉满！附最新一手实测！

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

《HMM在自然语言处理中的应用一：词性标注4》有11条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《HMM在自然语言处理中的应用一：词性标注4》有11条评论

发表回复

You missed