MIT自然语言处理第四讲:标注(第三部分)

自然语言处理:标注
Natural Language Processing: Tagging
作者:Regina Barzilay(MIT,EECS Department, November 15, 2004)
译者:我爱自然语言处理www.52nlp.cn ,2009年3月24日)

三、 马尔科夫模型(Markov Model)

a) 直观(Intuition):对于序列中的每个单词挑选最可能的标记(Pick the most likely tag for each word of a sequence)
 i. 我们将对P(T,S)建模,其中T是一个标记序列,S是一个单词序列(We will model P(T,S), where T is a sequence of tags, and S is a sequence of words)
 ii. P({T}delim{|}{S}{})={P(T,S)}/{sum{T}{}{P(T,S)}}
 Tagger(S)= argmax_{T in T^n}logP({T}delim{|}{S}{})
      = argmax_{T in T^n}logP({T,S}{})
b) 参数估计(Parameter Estimation)
 i. 应用链式法则(Apply chain rule):
 P(T,S)={prod{j=1}{n}{P({T_j}delim{|}{S_1,...S_{j-1},T_1,...,T_{j-1}}{})}}*
          P({S_j}delim{|}{S_1,...S_{j-1}T_1,...,T_{j}}{})
 ii. 独立性假设(马尔科夫假设)(Assume independence (Markov assumption)):
     ={prod{j=1}{n}{P({T_j}delim{|}{T_{j-2},T_{j-1}}{})}}*P({S_j}delim{|}{T_j}{})
c) 举例(Example)
 i. They/PRP never/RB stop/VB thinking/VBG about/IN new/JJ  ways/NNS to/TO harm/VB our/PROP$ country/NN and/CC our/PRP$  people/NN, and/CC neither/DT do/VB we/PRP.
 ii. P(T, S)=P(PRP|S, S)∗P(They|PRP)∗P(RB|S, PRP)∗P(never|RB)∗…
d) 估计转移概率(Estimating Transition Probabilities)
   P({T_j}delim{|}{T_{j-2},T_{j-1}}{})=
      {lambda_1}*{{Count(T_{j-2},T_{j-1},T_j)}/{Count(T_{j-2},T_{j-1})}}
      +{lambda_2}*{{Count(T_{j-1},T_j)}/{Count(T_{j-1})}}
      +{lambda_3}*{{Count(T_j)}/{Count(sum{i}{}{T_i})}}
e) 估计发射概率(Estimating Emission Probabilities)
     P({S_j}delim{|}{T_j}{})={Count(S_j,T_j)}/{Count(T_j)}
 i. 问题(Problem): 未登录词或罕见词(unknown or rare words)
  1. 专有名词(Proper names)
  “King Abdullah of Jordan, the King of Morocco, I mean, there’s a series of places — Qatar, Oman – I mean, places that are developing— Bahrain — they’re all developing the habits of free societies.”
  2. 新词(New words)
  “They misunderestimated me.”
f) 处理低频词(Dealing with Low Frequency Words)
 i. 将词表分为两个集合(Split vocabulary into two sets)
  1. 常用词(Frequent words)— 在训练集中出现超过5次的词(words occurring more than 5 times in training)
  2. 低频词(Low frequency words)— 训练集中的其他词(all other words)
 ii. 依据前缀、后缀等将低频词映射到一个小的、有限的集合中(Map low frequency words into a small, finite set, depending on prefixes, suffixes etc. (see Bikel et al., 1998))

未完待续:第四部分

附:课程及课件pdf下载MIT英文网页地址:
   http://people.csail.mit.edu/regina/6881/

注:本文遵照麻省理工学院开放式课程创作共享规范翻译发布,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part/

相关文章:

  1. MIT自然语言处理第四讲:标注(第四部分)
  2. MIT自然语言处理第四讲:标注(第二部分)
  3. MIT自然语言处理第四讲:标注(第一部分)
  4. MIT自然语言处理第五讲:最大熵和对数线性模型(第三部分)
  5. MIT自然语言处理第三讲:概率语言模型(第三部分)
  6. MIT自然语言处理第二讲:单词计数(第三部分)
  7. MIT自然语言处理第二讲:单词计数(第一部分)
  8. MIT自然语言处理第五讲:最大熵和对数线性模型(第一部分)
  9. MIT自然语言处理第一讲:简介和概述(第三部分)
  10. MIT自然语言处理第三讲:概率语言模型(第五部分)

此条目发表在 MIT自然语言处理, 标注, 自然语言处理, 隐马尔科夫模型 分类目录,贴了 , , , , , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>