基于字标注的中文分词方法

作者52nlp

7 月 19, 2009 #中文信息处理, #中文分词, #字标注, #最大熵模型, #条件随机场, #赵海, #黄昌宁

　　本文节选自黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》，旨在介绍目前比较流行的基于字标注的中文分词方法。

　　在2002年之前，自动分词方法基本上是基于词(或词典)的，在此基础上可进一步分成基于规则和基于统计的两大类。第一篇基于字标注(Character-based Tagging)的分词论文发表在2002年第一届SIGHAN研讨会上，当时并未引起学界的重视。一年后，Xue在最大熵(Maximum Entropy，ME)模型上实现的基于字的分词系统参加了Bakeoff-2003的评测，在As语料库的封闭测试项目上获得第二名)，然而其OOV 召回率Roov(0.729)却位居榜首。Xue还在CityU语料库的封闭测试中获得第三名，其Roov(0.670)仍然是该项比赛中最高的。尽管在Bakeoff2003中各种分词技术的优劣尚难分仲伯，但既然未登录词对分词精度的影响比分词歧义至少大5倍以上，我们自然看好这种能获致最高OOV召回的分词方法。这一预测果然在Bakeoff2005上得到了证实。
　　基于字标注的分词系统在Bakeoff-2005上崭露头角。其中Low的系统采用最大熵模型，在四项开放测试中夺得三项冠军(AS，CityU，PKU)和一项亚军(MSRA)。Tseng的系统采用条件随机场模型，在四项封闭测试中取得两项冠军(CityU， MSRA)、一项亚军(PKU)和一项季军(AS)。到了Bakeoff-2006，基于字的分词系统已遍地开花。其中，笔者用条件随机场模型实现的基于字标注的分词系统，在参加的六项分词评测中，夺得四个第一(CityU开放，As开放，As封闭，CTB封闭)和两个第三(CTB开放，CityU封闭)。
　　以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：

　　(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／。
　　(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S

　　首先需要说明，这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符，本文所说的“字”，也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然，汉字依然是这个单元集合中数量最多的一类字符。
　　把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。总而言之，在这样一个分词过程中，分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。

注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation

作者 52nlp

中文分词命名实体识别自然语言处理词性标注

《基于字标注的中文分词方法》有7条评论

874587说道：

2009年07月21号 19:59

wordpress281评论显示xss漏洞

[回复]
874587说道：

2009年07月22号 11:48

这有什么不明白的
XSS跨站+钓鱼
在评论栏里面输入相关代码就行。
鼠标滑过就会触发。

[回复]
admin 回复:
22 7 月, 2009 at 19:25
恩，明白了，谢谢提醒！

[回复]
domolo说道：

2009年07月26号 09:39

有演示系统和相应的论文吗？

[回复]
admin说道：

2009年07月26号 10:49

论文可以按《中文分词十年回顾》的参考文献读一下这方面的论文。如以下几篇国外文献（Google上都找的到）：
Combining classifiers for Chinese word segmentation；Chinese Word Segmentation as LMR Tagging；Chinese Word Segmentation as Character Tagging；An Improved Chinese Word Segmentation System with Conditional Random Filed；Chinese Segmentation and New Word Detection using Conditional Random Fields

关于演示系统，好像还没有这方面公开的系统，如果你想研究，可以利用CRF++这个包来训练分词模型，至于训练集，测试集都可以在backoff2005上下载的到。
CRF++：http://crfpp.sourceforge.net/
backoff2005: http://www.sighan.org/bakeoff2005/
用CRF做分词，你需要了解一下CRF。

[回复]
marunyu说道：

2015年10月20号 14:51

问一下博主有没有基于字标注的隐马尔科夫模型分词的相关文章呢

[回复]
52nlp 回复:
21 10 月, 2015 at 13:35
这个不太清楚，字标注论文都集中在最大熵和条件随机场上了

[回复]

基于字标注的中文分词方法

作者52nlp

作者 52nlp

相关文章

百度 LAC 2.0 极速体验，这是一个值得拥有的中文词法分析工具

中文命名实体识别工具（NER）哪家强？

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

《基于字标注的中文分词方法》有7条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《基于字标注的中文分词方法》有7条评论

发表回复

You missed