基于字标注的中文分词方法

  本文节选自黄昌宁老师和赵海博士在07年第3期《中文信息学报》上发表的《中文分词十年回顾》,旨在介绍目前比较流行的基于字标注的中文分词方法。

  在2002年之前,自动分词方法基本上是基于词(或词典)的,在此基础上可进一步分成基于规则和基于统计的两大类。第一篇基于字标注(Character-based Tagging)的分词论文发表在2002年第一届SIGHAN研讨会上,当时并未引起学界的重视。一年后,Xue在最大熵(Maximum Entropy,ME)模型上实现的基于字的分词系统参加了Bakeoff-2003的评测,在As语料库的封闭测试项目上获得第二名),然而其OOV 召回率Roov(0.729)却位居榜首。Xue还在CityU语料库的封闭测试中获得第三名,其Roov(0.670)仍然是该项比赛中最高的。尽管在Bakeoff2003中各种分词技术的优劣尚难分仲伯,但既然未登录词对分词精度的影响比分词歧义至少大5倍以上,我们自然看好这种能获致最高OOV召回的分词方法。这一预测果然在Bakeoff2005上得到了证实。
  基于字标注的分词系统在Bakeoff-2005上崭露头角。其中Low的系统采用最大熵模型,在四项开放测试中夺得三项冠军(AS,CityU,PKU)和一项亚军(MSRA)。Tseng的系统采用条件随机场模型,在四项封闭测试中取得两项冠军(CityU, MSRA)、一项亚军(PKU)和一项季军(AS)。到了Bakeoff-2006,基于字的分词系统已遍地开花。其中,笔者用条件随机场模型实现的基于字标注的分词系统,在参加的六项分词评测中,夺得四个第一(CityU开放,As开放,As封闭,CTB封闭)和两个第三(CTB开放,CityU封闭)。
  以往的分词方法,无论是基于规则的还是基于统计的,一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反,基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位),假如规定每个字最多只有四个构词位置:即B(词首),M (词中),E(词尾)和S(单独成词),那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式:

  (甲)分词结果:/上海/计划/N/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。
  (乙)字标注形式:上/B海/E计/B划/E N/S 本/s世/B 纪/E 末/S 实/B 现/E 人/B 均/E 国/B 内/E生/B产/E总/B值/E 五/B千/M 美/M 元/E 。/S

  首先需要说明,这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符,本文所说的“字”,也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然,汉字依然是这个单元集合中数量最多的一类字符。
  把分词过程视为字的标注问题的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中,文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上,既可以不必专门强调词表词信息,也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中,所有的字根据预定义的特征进行词位特性的学习,获得一个概率模型。然后,在待分字串上,根据字与字之间的结合紧密程度,得到一个词位的标注结果。最后,根据词位定义直接获得最终的分词结果。总而言之,在这样一个分词过程中,分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/the-character-based-tagging-method-of-chinese-word-segmentation

此条目发表在中文分词, 转载分类目录,贴了, , , , , , 标签。将固定链接加入收藏夹。

基于字标注的中文分词方法》有 7 条评论

  1. 874587说:

    wordpress281评论显示xss漏洞

    [回复]

  2. 874587说:

    这有什么不明白的
    XSS跨站+钓鱼
    在评论栏里面输入相关代码就行。
    鼠标滑过就会触发。

    [回复]

    admin 回复:

    恩,明白了,谢谢提醒!

    [回复]

  3. domolo说:

    有演示系统和相应的论文吗?

    [回复]

  4. admin说:

    论文可以按《中文分词十年回顾》的参考文献读一下这方面的论文。如以下几篇国外文献(Google上都找的到):
    Combining classifiers for Chinese word segmentation;Chinese Word Segmentation as LMR Tagging;Chinese Word Segmentation as Character Tagging;An Improved Chinese Word Segmentation System with Conditional Random Filed;Chinese Segmentation and New Word Detection using Conditional Random Fields

    关于演示系统,好像还没有这方面公开的系统,如果你想研究,可以利用CRF++这个包来训练分词模型,至于训练集,测试集都可以在backoff2005上下载的到。
    CRF++:http://crfpp.sourceforge.net/
    backoff2005: http://www.sighan.org/bakeoff2005/
    用CRF做分词,你需要了解一下CRF。

    [回复]

  5. marunyu说:

    问一下博主有没有基于字标注的隐马尔科夫模型分词的相关文章呢

    [回复]

    52nlp 回复:

    这个不太清楚,字标注论文都集中在最大熵和条件随机场上了

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注