中文分词入门之字标注法2

作者52nlp

1 月 10, 2010 #Bakeoff, #citar, #hmm, #HMM中文分词, #SIGHAN, #中文信息处理, #中文分词, #中文分词入门, #字标注, #字标注中文分词, #词性标注

　　虽然基于字标注的中文分词借鉴了词性标注的思想，但是在实践中，多数paper中的方法似乎局限于最大熵模型和条件随机场的应用，所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢？莫非是由于其诞生之初就采用了最大熵模型的缘故。但是，在词性标注中，Citar实现的是TnT中所采用的HMM trigram方法，其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提，本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能。
　　我们以微软亚洲研究院提供的中文分词语料为例，采用2-tag(B,I)标记集，只针utf-8编码文本。首先准备训练语料，原始训练集msr_training.utf8的形式是人工分好词的中文句子形式：

“ 人们常说生活是一部教科书，而血与火的战争更是不可多得的教科书，她确实是名副其实的 ‘ 我的大学 ’。
“ 心静渐知春似海，花深每觉影生香。
…

　　需要将其转换为字标注形式，这里52nlp利用perl写了一个简单的2-tag转换程序CharacterTagging.pl,不过请注意这个程序仅处理utf-8编码的文本：
　　./CharacterTagging.pl -i msr_training.utf8 -o msr_training.tagging.utf8
　　其中-i指示的是输入文件，-o指示的是输出文件，msr_training.tagging.utf8
的内容示例如下：

“/B 人/B 们/I 常/B 说/B 生/B 活/I 是/B 一/B 部/B 教/B 科/I 书/I ，/B 而/B 血/ 与/B 火/B 的/B 战/B 争/I 更/B 是/B 不/B 可/I 多/I 得/I 的/B 教/B 科/I 书/I ，/B 她/B 确/B 实/I 是/B 名/B 副/I 其/I 实/I 的/B ‘/B 我/B 的/B 大/B 学/I ’/B /B
“/B 心/B 静/B 渐/B 知/B 春/B 似/B 海/B ，/B 花/B 深/B 每/B 觉/B 影/B 生/B 香/ 。/B
…

　　有了这个2-tag的字标注训练语料库，就可以利用Citar中编译好的train来训练字标注器所需的输入文件了：
　　./train msr_training.tagging.utf8 msr_lex msr_ngram
　　其中msr_lex包含了5000多个汉字与其标记的共同出现频率，形式如下：

锶 B 4
薛 B 97
铜 B 114 I 26
佛 B 142 I 144
榫 B 2
觚 B 1
萋 B 2 I 8
钮 B 4 I 7
…

　　msr_ngram则是标记本身及其之间的共现频率，形式如下：

B 2368391
I 1682056
173836
86918
B B 1027319
I B 1254154
B 86017
I I 427001
B I 1255055
B 86918
I 901
86918
...

注：由于没有尖括号在Wordpress中被屏蔽，以上内容有误，谢谢读者bflout的提醒，以下重新附上msr_ngram:
[cc lang="c"]
B 2368391
I 1682056
173836
86918
B B 1027319
I B 1254154
B 86017
I I 427001
B I 1255055
B 86918
I 901
86918
B I B 1039293
B B B 408801
I I 285
B B 18403
B I I 215146
B I 60460
I I B 214861
I B I 594480
B B I 600115
B 86918
I I I 211855
B I 616
B B 26449
B 9
I B B 592069
I B 67605
[/cc]

　　注意，这两个文件都很小，msr_lex只有64k,而msr_ngram则不到1k，所占用资源极小。
　　在利用Citar的tag进行标注之前，需要对测试集msr_test.utf8的字符进行切分，在NIST2009机器翻译的评测主页的底部提供了这个工具 :splitUTF8Characters.p：
　　./splitUTF8Characters.pl -i msr_test.utf8 -o msr_test.split.utf8
　　msr_test.utf8的形式如下：

扬帆远东做与中国合作的先行
希腊的经济结构较特殊。
...

　　切分后的msr_test.split.utf8形式如下：

扬帆远东做与中国合作的先行
希腊的经济结构较特殊。
...

　　有了msr_test.split.utf8，我们就可以利用Citar的tag进行字标注了：
　　./tag msr_lex msr_ngram < msr_test.split.utf8 > msr_test.hmmtagging.utf8
　　标注后的msr_test.hmmtagging.utf8形式如下：

扬/B 帆/I 远/B 东/I 做/B 与/B 中/B 国/I 合/B 作/I 的/B 先/I 行/B
希/B 腊/I 的/B 经/B 济/I 结/B 构/I 较/B 特/B 殊/I 。/B
...

　　最后，就是按照标记结果合并字符并去除标记了。这里52nlp利用perl写了一个简单的还原程序Character2word.pl,不过请注意这个程序仅处理utf-8编码的文本：
　　./Character2word.pl -i msr_test.hmmtagging.utf8 -o msr_test.hmmseg.utf8
　　msr_test.hmmseg.utf8既是最终的分词结果，其形式如下：

扬帆远东做与中国合作的先行
希腊的经济结构较特殊。
…

　　当然，这个字标注中文分词的结果好坏还需要利用SIGHAN Bakeoff的score 进行评分：
　　../icwb2-data/scripts/score ../icwb2-data/gold/msr_training_words.utf8 msr_test_gold.utf8 msr_test.hmmseg.utf8 > msr_hmmseg.score
　　最终的评分结果在msr_hmmseg.score中，总的评分如下：

…
=== SUMMARY:
=== TOTAL INSERTIONS: 10304
=== TOTAL DELETIONS: 7030
=== TOTAL SUBSTITUTIONS: 30727
=== TOTAL NCHANGE: 48061
=== TOTAL TRUE WORD COUNT: 106873
=== TOTAL TEST WORD COUNT: 110147
=== TOTAL TRUE WORDS RECALL: 0.647
=== TOTAL TEST WORDS PRECISION: 0.627
=== F MEASURE: 0.637
=== OOV Rate: 0.026
=== OOV Recall Rate: 0.181
=== IV Recall Rate: 0.659
### msr_test.hmmseg.utf8 10304 7030 30727 48061 106873 110147 0.647 0.627 0.637 0.026 0.181 0.659

　　结果残不忍睹，不过没关系，重要的是思想，当你明白了如何进行字标注中文分词的设计和操作之后，可以做得改进有很多，譬如增加标记集，修改Citar中不合适的未登录词处理方法，甚至重新采用其他模型等等等等。同样，52nlp也会在合适的时候介绍一下最大熵模型和条件随机场在中文分词中的应用，欢迎继续关注本博客！

注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/中文分词入门之字标注法2

作者 52nlp

MIT自然语言处理中文信息处理人工智能

《中文分词入门之字标注法2》有10条评论

bflout说道：

2010年04月13号 12:56

可以解释下msr_ngram吗？如果是标记本身及其之间的共现频率，是不是只有B,I以及四种组合可能？谢谢！

[回复]
52nlp 回复:
13 4 月, 2010 at 19:40
粗心了，没有发现wordpress的屏蔽，谢谢提醒，已在文中修改，这下应该清楚些。
严格意义上还包括citar给它自动添加的start及end标记，另外citar是3-gram的标注器，因此要分别提取1元、2元和3元的组合形式，这个和语料库有点关系，排列组合要多一些，而实际提取还要兼顾语料库及citar自身的实现。

[回复]
路过说道：

2011年04月4号 16:07

请教楼主，msr_ngram中的数据是定义什么的，能解释一下么，我是新手。
谢谢了~

[回复]
52nlp 回复:
5 4 月, 2011 at 18:27
代表的是“标记本身及其之间的共现频率”，就是给语料打上标记后统计出来的。

[回复]
周说道：

2014年03月14号 09:48

Character2word.pl 下载招不到了。

[回复]
占文平说道：

2014年04月21号 16:00

Charactertagging.pl和Character2word.pl 下载失败

[回复]
52nlp 回复:
21 4 月, 2014 at 16:27
这两份Perl代码由于之前服务器的更换丢失了；建议参考后面的python相似功能代码

[回复]
bruceXie说道：

2015年11月22号 17:25

想问一下关于msr_lex中数据的问题。
对于一个字可能既会被标注B,也会被标注I , 比如：人/B 民/I ; 成/B 人/I 那么msr_lex是否会统计：
人 B 数目 = A
人 I 数目 = B
当利用Citar的tag进行字标注时，遇到“人”这个字时会如何标注，是选择max(A,B)吗？还是如何处理？
谢谢博主。

[回复]
bruceXie说道：

2015年11月22号 17:26

想问一下关于msr_lex中数据的问题。
对于一个字可能既会被标注B,也会被标注I , 比如：人/B 民/I ; 成/B 人/I 那么msr_lex文件是否会包含：
人 B 数目 = A
人 I 数目 = B
当利用Citar的tag进行字标注时，遇到“人”这个字时会如何标注，是选择max(A,B)吗？还是如何处理？
谢谢博主。

[回复]
52nlp 回复:
30 11 月, 2015 at 22:14
根据上下文进行选择，本身就是一种概率化的方法

[回复]

中文分词入门之字标注法2

作者52nlp

作者 52nlp

相关文章

多模型结合的等长拼写纠错|全国中文纠错大赛冠军方案

文字语义纠错技术探索与实践-张健

自动作文生成器：来试试用预训练模型自动写中文作文

《中文分词入门之字标注法2》有10条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《中文分词入门之字标注法2》有10条评论

发表回复

You missed