<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; MIT自然语言处理</title>
	<atom:link href="http://www.52nlp.cn/category/mit-nlp/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 21 Jul 2010 15:33:24 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part#comments</comments>
		<pubDate>Thu, 14 May 2009 00:12:37 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[对数线性模型]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[最大熵]]></category>
		<category><![CDATA[相对熵]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1574</guid>
		<description><![CDATA[自然语言处理：最大熵和对数线性模型
Natural Language Processing: Maximum Entropy and Log-linear Models 
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年5月14日）
三、	最大熵模型详述
g)	GIS算法（Generative Iterative Scaling）
　i.	背景：
　　最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS (generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：
　　1. 假定第零次迭代的初始模型为等概率的均匀分布。
　　2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们变大。
　　3. 重复步骤 2 直到收敛。
　　GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。但是，这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨（Csiszar) 解释清楚的，因此，人们在谈到这个算法时，总是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。
　　八十年代，很有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。（以上摘自Google吴军《数学之美系列16》）
　ii.	目标（Goal）：寻找遵循如下约束条件的此种形式的分布（Find distribution of the [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第六部分）'>MIT自然语言处理第三讲：概率语言模型（第六部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：最大熵和对数线性模型</strong><br />
Natural Language Processing: Maximum Entropy and Log-linear Models <span id="more-1574"></span><br />
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年5月14日）</p>
<p><strong>三、	最大熵模型详述</strong><br />
g)	GIS算法（Generative Iterative Scaling）<br />
　i.	背景：<br />
　　最原始的最大熵模型的训练方法是一种称为通用迭代算法GIS (generalized iterative scaling) 的迭代算法。GIS 的原理并不复杂，大致可以概括为以下几个步骤：<br />
　　1. 假定第零次迭代的初始模型为等概率的均匀分布。<br />
　　2. 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们变大。<br />
　　3. 重复步骤 2 直到收敛。<br />
　　GIS 最早是由 Darroch 和 Ratcliff 在七十年代提出的。但是，这两人没有能对这种算法的物理含义进行很好地解释。后来是由数学家希萨（Csiszar) 解释清楚的，因此，人们在谈到这个算法时，总是同时引用 Darroch 和Ratcliff 以及希萨的两篇论文。GIS 算法每次迭代的时间都很长，需要迭代很多次才能收敛，而且不太稳定，即使在 64 位计算机上都会出现溢出。因此，在实际应用中很少有人真正使用 GIS。大家只是通过它来了解最大熵模型的算法。<br />
　　八十年代，很有天才的孪生兄弟的达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面的改进，提出了改进迭代算法 IIS（improved iterative scaling）。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。即使如此，在当时也只有 IBM 有条件是用最大熵模型。（以上摘自Google吴军《数学之美系列16》）<br />
　ii.	目标（Goal）：寻找遵循如下约束条件的此种形式<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_961.5_7a56e8e256961196739685f1f092d83b.png" style="vertical-align:-38.5px; display: inline-block ;" alt="pi prod{j=1}{k}{{alpha_j}^{f_j}(x)}" title="pi prod{j=1}{k}{{alpha_j}^{f_j}(x)}"/>的分布（Find distribution of the form <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_961.5_7a56e8e256961196739685f1f092d83b.png" style="vertical-align:-38.5px; display: inline-block ;" alt="pi prod{j=1}{k}{{alpha_j}^{f_j}(x)}" title="pi prod{j=1}{k}{{alpha_j}^{f_j}(x)}"/>that obeys the following constraints）：<br />
　　　　　　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_70ae7c7241b040e663baffcb8a2b7f24.png" style="vertical-align:-13.5px; display: inline-block ;" alt="E_p f_j = E_{p prime}{f_j}" title="E_p f_j = E_{p prime}{f_j}"/><br />
　iii.	GIS约束条件（GIS constraints）：<br />
　　　1、<img src="http://www.52nlp.cn/images/gis1.jpg" alt="gis约束1" /><br />
　　其中C是一个常数（where C is a constant (add correctional feature)）<br />
　　　2、<img src="http://www.52nlp.cn/images/gis2.jpg" alt="gis约束2" />　<br />
　iv.	定理（Theorem）：下面的过程将收敛到p*∈P∩Q（The following procedure will converge to p*∈P∩Q）：<br />
　　　　　<img src="http://www.52nlp.cn/images/gis3.jpg" alt="gis定理1" /><br />
　　<img src="http://www.52nlp.cn/images/gis4.jpg" alt="gis定理2" />　<br />
　v.	计算量（Computation）<br />
　　<img src="http://www.52nlp.cn/images/gis6.jpg" alt="gis计算量1" />　<br />
　　其中S={(a1,b1),&#8230;,(aN,bN)}是训练样本（where S is a training sample）<br />
　　<img src="http://www.52nlp.cn/images/gis7.jpg" alt="gis计算量2" />　<br />
　　因为有太多可能的(a,b)，为了减少计算量，因而采用下面的公式近似计算：<br />
　　<img src="http://www.52nlp.cn/images/gis8.jpg" alt="gis计算量3" />　<br />
　　时间复杂度（Running time）：O(NPA)<br />
　　其中N训练集规模，P是预期数，A是对于给定事件(a,b)活跃特征的平均数（where N  is the training set size, P is the number of predictions, and A is the average number of features that are active for a given event (a,b)）</p>
<p><strong>四、	最大熵分类器（ME classifiers）</strong><br />
a)	可以处理很多特征（Can handle lots of features）<br />
b)	存在数据稀疏问题（Sparsity is an issue）<br />
　i.	应用平滑算法和特征选择方法解决（apply smoothing and feature selection）<br />
c)	特征交互（Feature interaction）？<br />
　i.	最大熵分类器并没有假设特征是独立的（ME classifiers do not assume feature independence）<br />
　ii.	然而，它们也没有明显的模型特征交互（However, they do not explicitly model feature interaction）</p>
<p><strong>五、	总结（Summary）</strong><br />
　a)	条件概率建模与对数线性模型（Modeling conditional probabilities with log-linear models）<br />
　b)	对数线性模型的最大熵性质（Maximum-entropy properties of log-linear models）<br />
　c)	通过迭代缩放进行优化（Optimization via iterative scaling） </p>
<p>一些实现的最大熵工具（Some implementations）：<br />
　　http://nlp.stanford.edu/downloads/classifier.shtml<br />
　　http://maxent.sourceforge.net</p>
<p>第五讲结束！</p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part/">http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第六部分）'>MIT自然语言处理第三讲：概率语言模型（第六部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part#comments</comments>
		<pubDate>Sat, 09 May 2009 00:05:15 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[对数线性模型]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[最大熵]]></category>
		<category><![CDATA[相对熵]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1527</guid>
		<description><![CDATA[自然语言处理：最大熵和对数线性模型
Natural Language Processing: Maximum Entropy and Log-linear Models 
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年5月9日）
三、	最大熵模型详述
c)	相对熵（Kullback-Liebler距离）（Relative Entropy (Kullback-Liebler Distance)）
　i.	定义（Definition）：两个概率分布p和q的相对熵D由下式给出（The relative entropy D between two probability distributions p and q is given by）
　　　　　　
　ii.	引理1（Lemma 1）：对于任意两个概率分布p和q，D(p, q)≥0 且 D(p, q)=0 当且仅当p=q（For any two probability distributions p and q, D(p, q)≥ 0, and D(p, q)=0 if and only if p [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：最大熵和对数线性模型</strong><br />
Natural Language Processing: Maximum Entropy and Log-linear Models <span id="more-1527"></span><br />
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年5月9日）</p>
<p><strong>三、	最大熵模型详述</strong><br />
c)	相对熵（Kullback-Liebler距离）（Relative Entropy (Kullback-Liebler Distance)）<br />
　i.	定义（Definition）：两个概率分布p和q的相对熵D由下式给出（The relative entropy D between two probability distributions p and q is given by）<br />
　　　　　　<img src="http://www.52nlp.cn/images/relative.jpg" alt="相对熵定义" /><br />
　ii.	引理1（Lemma 1）：对于任意两个概率分布p和q，D(p, q)≥0 且 D(p, q)=0 当且仅当p=q（For any two probability distributions p and q, D(p, q)≥ 0, and D(p, q)=0 if and only if p =q）<br />
　iii.	引理2（毕达哥拉斯性质）（Lemma 2 (Pythagorean Property)）：若p∈P，q∈Q，p*∈P∩Q，则D(p, q) = D(p, p*) + D(p*, q) （If p ∈P and q ∈ Q, and p*∈P∩Q, then D(p, q) = D(p, p*) + D(p*, q)）<br />
　注：证明请参看MIT NLP 的lec5.pdf英文讲稿；<br />
d)	最大熵解（The Maximum Entropy Solution）<br />
　i.	定理1(Theorem 1)：若p*∈P∩Q，则p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_8bc764377743a4001f68cf124a63ff21.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{p in P}H(p)" title="argmax_{p in P}H(p)"/> ,且p*唯一(If p∗∈P ∩Q then p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_8bc764377743a4001f68cf124a63ff21.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{p in P}H(p)" title="argmax_{p in P}H(p)"/>. Furthermore, p* is unique)<br />
  注：证明请参看min nlp原讲稿，主要运用引理1和引理2得出。<br />
e)	最大似然解（The Maximum Likelihood Solution）<br />
　i.	定理2(Theorem 2)：若p*∈P∩Q，则p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_08286b672b3319d54feee0be800d59cb.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{q in Q}L(q)" title="argmax_{q in Q}L(q)"/> ,且p*唯一(If p∗∈P ∩Q then p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_08286b672b3319d54feee0be800d59cb.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{q in Q}L(q)" title="argmax_{q in Q}L(q)"/>. Furthermore, p* is unique)<br />
  注：证明请参看min nlp原讲稿，主要运用引理1和引理2得出。<br />
f)	对偶定理（Duality Theorem）<br />
　i.	存在一个唯一分布p*(There is a unique distribution p*）<br />
　　1.	p*∈ P ∩ Q<br />
　　2.	p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_8bc764377743a4001f68cf124a63ff21.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{p in P}H(p)" title="argmax_{p in P}H(p)"/> (最大熵解（Max-ent solution）)<br />
　　3.	p* = <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_08286b672b3319d54feee0be800d59cb.png" style="vertical-align:-13.5px; display: inline-block ;" alt="argmax_{q in Q}L(q)" title="argmax_{q in Q}L(q)"/> (最大似然解（Max-likelihood solution）)<br />
　ii.	结论（Implications）：<br />
　　1.	最大熵解可以写成对数线性形式（The maximum entropy solution can be written in log-linear form）<br />
　　2.	求出最大似然解同样给出了最大熵解（Finding the maximum-likelihood solution also gives the maximum entropy solution）</p>
<p>未完待续&#8230;</p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part/">http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part#comments</comments>
		<pubDate>Tue, 05 May 2009 00:00:26 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[对数线性模型]]></category>
		<category><![CDATA[常宝宝]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[最大熵]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1501</guid>
		<description><![CDATA[自然语言处理：最大熵和对数线性模型
Natural Language Processing: Maximum Entropy and Log-linear Models 
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年5月5日）
二、	最大熵（Maximum Entropy）：
b)	最大熵模型(Maximum Entropy Modeling)
　iii.	约束条件（Constraint）：
　　每个特征的观察样本期望值与特征模型期望值相一致（observed expectation of each feature has to be the same as the model’s expectation of the feature）：
 　　
　iv.	最大熵原理(Principle of Maximum Entropy)：
　　将已知事实作为制约条件，求得可使熵最大化的概率分布作为正确的概率分布：
　　　　　
　v.	补充：
　　自然语言处理中很多问题都可以归结为统计分类问题，很多机器学习方法在这里都能找到应用，在自然语言处理中，统计分类表现在要估计类a 和某上下文b 共现的概率P(a,b) ，不同的问题，类a 和上下文b 的内容和含义也不相同。在词性标注中是类的含义是词性标注集中的词类标记，而上下文指的是当前被处理的词前面一个词及词类，后面一个词及词类或前后若干个词和词类。通常上下文有时是词，有时是词类标记，有时是历史决策等等。大规模语料库中通常包含a 和b 的共现信息，但b 在语料库中的出现常常是稀疏的，要对所有可能的(a,b)计算出可靠的P(a,b) ，语料库规模往往总是不够的。问题是要发现一个方法，利用这个方法在数据稀疏的条件下可靠的估计P(a,b) 。不同的方法可能采用不同的估计方法。
　　最大熵模型的优点是：在建模时，试验者只需要集中精力选择特征，而不需要花费精力考虑如何使用这些特征。而且可以很灵活地选择特征，使用各种不同类型的特征，特征容易更换。利用最大熵建模，一般也不需要做在其它方法建模中常常使用的独立性假设，参数平滑可以通过特征选择的方式加以考虑，无需专门使用常规平滑算法单独考虑，当然也不排除使用经典平滑算法进行平滑。每个特征对概率分布的贡献则由参数α决定，该参数可以通过一定的算法迭代训练得到。
（注：以上两段转自北大常宝宝老师的《自然语言处理的最大熵模型》）
三、	最大熵模型详述
a)	概要（Outline）
　i.	我们将首先证明（We will first show that）满足上述条件的概率分布p*具有如下的形式：
 　　　　　
　其中是一个归一化常数，α是模型参数（where  is [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：最大熵和对数线性模型</strong><br />
Natural Language Processing: Maximum Entropy and Log-linear Models <span id="more-1501"></span><br />
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年5月5日）</p>
<p><strong>二、	最大熵（Maximum Entropy）：</strong><br />
b)	最大熵模型(Maximum Entropy Modeling)<br />
　iii.	约束条件（Constraint）：<br />
　　每个特征的观察样本期望值与特征模型期望值相一致（observed expectation of each feature has to be the same as the model’s expectation of the feature）：<br />
 　　<img src="http://www.52nlp.cn/images/Constraint.jpg" alt="最大熵模型约束条件" /><br />
　iv.	最大熵原理(Principle of Maximum Entropy)：<br />
　　将已知事实作为制约条件，求得可使熵最大化的概率分布作为正确的概率分布：<br />
　　　　　<img src="http://www.52nlp.cn/images/Principle.jpg" alt="最大熵模型原理" /><br />
　v.	补充：<br />
　　自然语言处理中很多问题都可以归结为统计分类问题，很多机器学习方法在这里都能找到应用，在自然语言处理中，统计分类表现在要估计类a 和某上下文b 共现的概率P(a,b) ，不同的问题，类a 和上下文b 的内容和含义也不相同。在词性标注中是类的含义是词性标注集中的词类标记，而上下文指的是当前被处理的词前面一个词及词类，后面一个词及词类或前后若干个词和词类。通常上下文有时是词，有时是词类标记，有时是历史决策等等。大规模语料库中通常包含a 和b 的共现信息，但b 在语料库中的出现常常是稀疏的，要对所有可能的(a,b)计算出可靠的P(a,b) ，语料库规模往往总是不够的。问题是要发现一个方法，利用这个方法在数据稀疏的条件下可靠的估计P(a,b) 。不同的方法可能采用不同的估计方法。<br />
　　最大熵模型的优点是：在建模时，试验者只需要集中精力选择特征，而不需要花费精力考虑如何使用这些特征。而且可以很灵活地选择特征，使用各种不同类型的特征，特征容易更换。利用最大熵建模，一般也不需要做在其它方法建模中常常使用的独立性假设，参数平滑可以通过特征选择的方式加以考虑，无需专门使用常规平滑算法单独考虑，当然也不排除使用经典平滑算法进行平滑。每个特征对概率分布的贡献则由参数α决定，该参数可以通过一定的算法迭代训练得到。<br />
（注：以上两段转自北大常宝宝老师的《自然语言处理的最大熵模型》）</p>
<p><strong>三、	最大熵模型详述</strong><br />
a)	概要（Outline）<br />
　i.	我们将首先证明（We will first show that）满足上述条件的概率分布p*具有如下的形式：<br />
 　　　　　<img src="http://www.52nlp.cn/images/p.jpg" alt="概览分布P" /><br />
　其中<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_994.5_8edb2cf68079344a2edd739531259f6c.png" style="vertical-align:-5.5px; display: inline-block ;" alt="pi" title="pi"/>是一个归一化常数，α是模型参数（where <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_994.5_8edb2cf68079344a2edd739531259f6c.png" style="vertical-align:-5.5px; display: inline-block ;" alt="pi" title="pi"/> is a normalization constant and the α’s are the model parameters）<br />
　ii.	然后我们将考虑搜寻α的参数估计过程（Then, we will consider an estimation procedure for finding the α’s）<br />
b)	数学符号表示（Notations）<br />
　i.	χ是可能的“历史”集（χis the set of possible histories）<br />
　ii.	γ是所有可能的标记集（γ is the set of all possible tags）<br />
　iii.	S是事件训练样本集（S finite training sample of events）<br />
　iv.	p’(x)是S中x的观察概率（p’(x)observed probability of x in S）<br />
　v.	p(x)是x的模型概率（p(x) the model’s probability of x）<br />
　vi.	其它符号公式定义如下：<br />
　　　　<img src="http://www.52nlp.cn/images/Notations.jpg" alt="数学符号表示" /></p>
<p>未完待续:<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part">第四部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part/">http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='Permanent Link: 最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part#comments</comments>
		<pubDate>Wed, 29 Apr 2009 00:00:43 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[对数线性模型]]></category>
		<category><![CDATA[常宝宝]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[最大熵]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475</guid>
		<description><![CDATA[自然语言处理：最大熵和对数线性模型
Natural Language Processing: Maximum Entropy and Log-linear Models 
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年4月29日）
一、	词性标注（POS tagging）：
c)	特征向量表示（Feature Vector Representation）
　i.	一个特征就是一个函数f（A feature is a function f ）：

　ii.	我们有m个特征fk，k = 1…m（We have m features fk for k =1&#8230;m）
d)	词性表示（POS Representation）
　i.	对于所有的单纯/标记对的单词/标记特征，（Word/tag features for all word/tag pairs）：
 
ii.	对于所有特定长度的前缀/后缀的拼写特征（Spelling features for all prefixes/suffixes of certain length）：
  
iii.	上下文特征（Contextual features）：
  
iv.	对于一个给定的“历史”x ∈ X ，每一个γ中的标记都被映射到一个不同的特征向量（For [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：最大熵和对数线性模型</strong><br />
Natural Language Processing: Maximum Entropy and Log-linear Models <span id="more-1475"></span><br />
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年4月29日）</p>
<p><strong>一、	词性标注（POS tagging）：</strong><br />
c)	特征向量表示（Feature Vector Representation）<br />
　i.	一个特征就是一个函数f（A feature is a function f ）：<br />
<img src="http://www.52nlp.cn/images/feature-1.jpg" alt="特征函数1" /><br />
　ii.	我们有m个特征fk，k = 1…m（We have m features fk for k =1&#8230;m）<br />
d)	词性表示（POS Representation）<br />
　i.	对于所有的单纯/标记对的单词/标记特征，（Word/tag features for all word/tag pairs）：<br />
 <img src="http://www.52nlp.cn/images/feature-2.jpg" alt="特征函数2" /><br />
ii.	对于所有特定长度的前缀/后缀的拼写特征（Spelling features for all prefixes/suffixes of certain length）：<br />
  <img src="http://www.52nlp.cn/images/feature-3.jpg" alt="特征函数3" /><br />
iii.	上下文特征（Contextual features）：<br />
  <img src="http://www.52nlp.cn/images/feature-4.jpg" alt="特征函数4" /><br />
iv.	对于一个给定的“历史”x ∈ X ，每一个γ中的标记都被映射到一个不同的特征向量（For a given history x ∈ X, each label in γ is mapped to a different feature vector）：<br />
 <img src="http://www.52nlp.cn/images/feature-5.jpg" alt="特征向量" /><br />
v.	目标（Goal）：学习一个条件概率P(tag|history)（learn a conditional probability P(tag|history) </p>
<p><strong>二、	最大熵（Maximum Entropy）：</strong><br />
a)	例子（Motivating Example）：<br />
　i.	给定约束条件：p(x, 0)+p(y, 0)=0.6，a ∈{x, y}且b ∈0, 1，估计概率分布p(a, b)（Estimate probability distribution p(a, b), given the constraint: p(x, 0) + p(y, 0) =0.6, where a ∈{x, y}and b ∈0, 1））：<br />
 　　　　　　　<img src="http://www.52nlp.cn/images/maxent1.jpg" alt="最大熵模型举例1" /><br />
　ii.	满足约束条件的一种分布（One Way To Satisfy Constraints）：<br />
 　　　　　　　<img src="http://www.52nlp.cn/images/maxent2.jpg" alt="最大熵模型举例2" /><br />
　iii.	满足约束条件的另一种分布（Another Way To Satisfy Constraints）：<br />
 　　　　　　　<img src="http://www.52nlp.cn/images/maxent3.jpg" alt="最大熵模型举例3" /><br />
b)	最大熵模型(Maximum Entropy Modeling)<br />
　i.	给定一个训练样本集，我们希望寻找一个分布符合如下两个条件(Given a set of training examples, we wish to find a distribution which)：<br />
　　1.	满足已知的约束条件（satisfies the input constraints）<br />
　　2.	最大化其不确定性（maximizes the uncertainty）<br />
　ii.	补充：<br />
　　最大熵原理是在1957 年由E.T.Jaynes 提出的，其主要思想是，在只掌握关于未知分布的部分知识时，应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下，符合已知知识的概率分布可能不止一个。我们知道，熵定义的实际上是一个随机变量的不确定性，熵最大的时侯，说明随机变量最不确定，换句话说，也就是随机变量最随机，对其行为做准确预测最困难。从这个意义上讲，那么最大熵原理的实质就是，在已知部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是我们可以作出的唯一不偏不倚的选择，任何其它的选择都意味着我们增加了其它的约束和假设，这些约束和假设根据我们掌握的信息无法做出。（这一段转自北大常宝宝老师的《自然语言处理的最大熵模型》）</p>
<p>未完待续:<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part">第三部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/">http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part#comments</comments>
		<pubDate>Sat, 25 Apr 2009 00:49:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[最大熵模型]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[TBL]]></category>
		<category><![CDATA[对数线性模型]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[最大熵]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1463</guid>
		<description><![CDATA[自然语言处理：最大熵和对数线性模型
Natural Language Processing: Maximum Entropy and Log-linear Models 
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年4月25日）
上一讲主要内容回顾（Last time）：
* 基于转换的标注器（Transformation-based tagger）
* 基于隐马尔科夫模型的标注器（HMM-based tagger）
遗留的内容（Leftovers）: 
a) 词性分布（POS distribution）
　i. 在Brown语料库中按歧义程度排列的词型数目（The number of word types in Brown corpus by degree of ambiguity）：
　　无歧义（Unambiguous）只有1个标记： 35,340
　　　　歧义（Ambiguous） 有2-7个标记：  	4,100
　　　　　　　　　　　　　　　　2个标记：3,764
　　　　　　　　　　　　　　　　3个标记：264
　　　　　　　　　　　　　　　　4个标记：61
　　　　　　　　　　　　　　　　5个标记：12
　　　　　　　　　　　　　　　　6个标记：2
　　　　　　　　　　　　　　　　7个标记：1
b) 无监督的TBL（Unsupervised TBL）
　i. 初始化（Initialization）：允许的词性列表（a list of allowable part of speech tags）
　ii.	转换（Transformations）： 在上下文C中将一个单词的标记从χ变为Y (Change the tag of a [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：最大熵和对数线性模型</strong><br />
Natural Language Processing: Maximum Entropy and Log-linear Models <span id="more-1463"></span><br />
作者：Regina Barzilay（MIT,EECS Department, October 1, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年4月25日）</p>
<p><strong>上一讲主要内容回顾（Last time）：</strong><br />
<em>* 基于转换的标注器（Transformation-based tagger）<br />
* 基于隐马尔科夫模型的标注器（HMM-based tagger）</em></p>
<p><strong>遗留的内容（Leftovers）: </strong><br />
a) 词性分布（POS distribution）<br />
　i. 在Brown语料库中按歧义程度排列的词型数目（The number of word types in Brown corpus by degree of ambiguity）：<br />
　　无歧义（Unambiguous）只有1个标记： 35,340<br />
　　　　歧义（Ambiguous） 有2-7个标记：  	4,100<br />
　　　　　　　　　　　　　　　　2个标记：3,764<br />
　　　　　　　　　　　　　　　　3个标记：264<br />
　　　　　　　　　　　　　　　　4个标记：61<br />
　　　　　　　　　　　　　　　　5个标记：12<br />
　　　　　　　　　　　　　　　　6个标记：2<br />
　　　　　　　　　　　　　　　　7个标记：1<br />
b) 无监督的TBL（Unsupervised TBL）<br />
　i. 初始化（Initialization）：允许的词性列表（a list of allowable part of speech tags）<br />
　ii.	转换（Transformations）： 在上下文C中将一个单词的标记从χ变为Y (Change the tag of a word from χ to Y in context C, where γ ∈ χ).<br />
　　例子（Example）: “From NN VBP to VBP if previous tag is NNS”<br />
　iii.	评分标准(Scoring criterion):<br />
　　<img src="http://www.52nlp.cn/images/tbl.png" alt="tbl" /><br />
<strong><br />
这一讲主要内容（Today）：</strong><br />
<em>* 最大熵模型(Maximum entropy models)<br />
* 与对数线性模型的联系(Connection to log-linear models)<br />
* 优化方法(Optimization methods)</em></p>
<p><strong>一般问题描述(The General Problem)：</strong><br />
a)	给定输入域χ（We have some input domain χ）；<br />
b)	给定标记集γ（We have some label set γ）；<br />
c)	目标（Goal）：对于任何x ∈ χ 及 y ∈γ学习一个条件概率P(y|x) （learn a conditional probability P(y|x)for any x ∈ χ and y ∈ γ ）。<br />
<strong><br />
一、	词性标注（POS tagging）：</strong><br />
a)	例子：Our/PRP$ enemies/NNS are/VBP innovative/JJ and/CC resourceful/JJ ,/, and/CC so/RB are/VB we/PRP ?/?.<br />
　i.	输入域（Input domain）：χ是可能的“历史”（χ is the set of possible histories）；<br />
　ii.	标记集（Label set）：γ是所有可能的标注标记（γ is the set of all possible tags）；<br />
　iii.	目标（Goal）：学习一个条件概率P(tag|history)（learn a conditional probability P(tag|history)）。<br />
b)	表现形式（Representation）：<br />
　i.	“历史”是一个4元组(t1,t2,w[1:n],i) （History is a 4-tuples (t1,t2,w[1:n],i)；<br />
　ii.	t1,t2是前两个标记（t1,t2 are the previous two tags）<br />
　iii.	w[1:n]是输入句子中的n个单词（w[1:n]are the n words in the input sentence）<br />
　iv.	i 是将要被标注的单词的位置索引（i is the index of the word being tagged）<br />
　χ是所有可能的“历史”集合（χis the set of all possible histories）</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part">第二部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part/">http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第四讲：标注（第四部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part#comments</comments>
		<pubDate>Thu, 26 Mar 2009 00:00:58 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[隐马尔科夫模型]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[TBL]]></category>
		<category><![CDATA[Viterbi 算法]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1289</guid>
		<description><![CDATA[自然语言处理：标注
Natural Language Processing: Tagging
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年3月26日）

三、	马尔科夫模型（Markov Model）
g)	有效标注（Efficient Tagging）
　i.	对于一个单词序列，如何寻找最可能的标记序列（How to find the most likely a sequence of tags for a sequence of words）?
　　1.	盲目搜索的方法是可怕的（The brute force search is dreadful）— 对于N个标记和W个单词计算代价是.for N tags and W words, the cost is NW
　　2.	主意（Idea）: 使用备忘录（Viterbi算法）（use memoization (the Viterbi Algorithm)）
　　——结束于相同标记的序列可以压缩在一起，因为下一个标记仅依赖于此序列的当前标记（Sequences that end in the same tag can be collapsed [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-5' rel='bookmark' title='Permanent Link: HMM学习最佳范例六：维特比算法5'>HMM学习最佳范例六：维特比算法5</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：标注</strong><br />
Natural Language Processing: Tagging<span id="more-1289"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年3月26日）<br />
<strong><br />
三、	马尔科夫模型（Markov Model）</strong><br />
g)	有效标注（Efficient Tagging）<br />
　i.	对于一个单词序列，如何寻找最可能的标记序列（How to find the most likely a sequence of tags for a sequence of words）?<br />
　　1.	盲目搜索的方法是可怕的（The brute force search is dreadful）— 对于N个标记和W个单词计算代价是<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_994_833633d01ba1e8530f98a42ba6c52783.png" style="vertical-align:-6px; display: inline-block ;" alt="N^W" title="N^W"/>.for N tags and W words, the cost is NW<br />
　　2.	主意（Idea）: 使用备忘录（Viterbi算法）（use memoization (the Viterbi Algorithm)）<br />
　　——结束于相同标记的序列可以压缩在一起，因为下一个标记仅依赖于此序列的当前标记（Sequences that end in the same tag can be collapsed together since the next tag depends only on the current tag of the sequence）<br />
　　图示如下：<br />
<img src="http://52nlp.cn/images/test2.png" alt="test" /><br />
h)	Viterbi 算法（The Viterbi Algorithm）<br />
　i.	初始情况（Base case）:<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_8e0d8cd8e919775eed30753d3b4f844f.png" style="vertical-align:-13.5px; display: inline-block ;" alt="pi delim{[}{0, START}{]} = log 1 = 0" title="pi delim{[}{0, START}{]} = log 1 = 0"/><br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_6711cbbcfe1041d9144264c305d59fae.png" style="vertical-align:-13.5px; display: inline-block ;" alt="pi delim{[}{0, t_{-1}}{]} = log 0 = infty" title="pi delim{[}{0, t_{-1}}{]} = log 0 = infty"/><br />
　　对所有其他的<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_a0e9484a184b2b9f5d76ab395c5dbefb.png" style="vertical-align:-13.5px; display: inline-block ;" alt="t_{-1}" title="t_{-1}"/>(for all other <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_a0e9484a184b2b9f5d76ab395c5dbefb.png" style="vertical-align:-13.5px; display: inline-block ;" alt="t_{-1}" title="t_{-1}"/>)<br />
　ii.	递归情况（Recursive case）:<br />
　　1.	对于i = 1&#8230;S.length及对于所有的<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_96ec5f91a620e04f5ec24792a7db695c.png" style="vertical-align:-13.5px; display: inline-block ;" alt="t_{-1} in T" title="t_{-1} in T"/>:<br />
<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_35fc308f86cfd1b29b695e288fd1fe37.png" style="vertical-align:-29px; display: inline-block ;" alt="pi delim{[}{i, t_{-1}}{]} = {max}under{t in T union START}{ pi delim{[}{i-1, t}{]} + log P(t_{-1}delim{|}{t}{}) + log P(S_i delim{|}{t_{-1}}{})}" title="pi delim{[}{i, t_{-1}}{]} = {max}under{t in T union START}{ pi delim{[}{i-1, t}{]} + log P(t_{-1}delim{|}{t}{}) + log P(S_i delim{|}{t_{-1}}{})}"/><br />
　　2.	回朔指针允许我们找出最大概率序列（Backpointers allow us to recover the max probability sequence）:<br />
<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_7c7d63f0e630d08fe8449a6b0f526cc0.png" style="vertical-align:-29px; display: inline-block ;" alt="BP delim{[}{i, t_{-1}}{]} = {argmax}under{t in T union START}{ pi delim{[}{i-1, t}{]} + log P(t_{-1}delim{|}{t}{}) + log P(S_i delim{|}{t_{-1}}{})}" title="BP delim{[}{i, t_{-1}}{]} = {argmax}under{t in T union START}{ pi delim{[}{i-1, t}{]} + log P(t_{-1}delim{|}{t}{}) + log P(S_i delim{|}{t_{-1}}{})}"/><br />
i)	性能（Performance）<br />
　i.	HMM标注器对于训练非常简单（HMM taggers are very simple to train）<br />
　ii.	表现相对很好（Perform relatively well） (over 90% performance on named entities)<br />
　iii.	最大的困难是对p(单词|标记)建模（Main difficulty is modeling of p(word|tag)）</p>
<p><strong>四、	结论（Conclusions）</strong><br />
a)	标注是一个相对比较简单的任务，至少在一个监督框架下对于英语来说（Tagging is relatively easy task (at least, in a supervised framework, and for English)）<br />
b)	影响标注器性能的因素包括（Factors that impact tagger performance include）:<br />
　i.	训练集数量（The amount of training data available）<br />
　ii.	标记集（The tag set）<br />
　iii.	训练集和测试集的词汇差异（The difference in vocabulary between the training and the testing）<br />
　iv.	未登录词（Unknown words）<br />
c)	TBL和HMM框架可用于其他自然语言处理任务（TBL and HMM framework can be used for other tasks）</p>
<p>第四讲结束！<br />
第五讲：<a href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part">最大熵和对数线性模型</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part/">http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-5' rel='bookmark' title='Permanent Link: HMM学习最佳范例六：维特比算法5'>HMM学习最佳范例六：维特比算法5</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第四讲：标注（第三部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part#comments</comments>
		<pubDate>Tue, 24 Mar 2009 00:00:22 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[隐马尔科夫模型]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1280</guid>
		<description><![CDATA[自然语言处理：标注
Natural Language Processing: Tagging
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年3月24日）

三、	马尔科夫模型（Markov Model）
a)	直观（Intuition）：对于序列中的每个单词挑选最可能的标记（Pick the most likely tag for each word of a sequence）
　i.	我们将对P(T,S)建模，其中T是一个标记序列，S是一个单词序列（We will model P(T,S), where T is a sequence of tags, and S is a sequence of words）
　ii.　
　Tagger(S)= 
　　　　　　= 
b)	参数估计（Parameter Estimation）
　i.	应用链式法则（Apply chain rule）:
　
　　　　　　　　　　
　ii.	独立性假设（马尔科夫假设）（Assume independence (Markov assumption)）:
　　　　　=
c)	举例（Example）
　i.	They/PRP never/RB stop/VB thinking/VBG about/IN new/JJ 　ways/NNS to/TO harm/VB our/PROP$ [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：标注</strong><br />
Natural Language Processing: Tagging<span id="more-1280"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年3月24日）<br />
<strong><br />
三、	马尔科夫模型（Markov Model）</strong><br />
a)	直观（Intuition）：对于序列中的每个单词挑选最可能的标记（Pick the most likely tag for each word of a sequence）<br />
　i.	我们将对P(T,S)建模，其中T是一个标记序列，S是一个单词序列（We will model P(T,S), where T is a sequence of tags, and S is a sequence of words）<br />
　ii.　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_950_8915464fa6198ae78a32ea2471d3fe5a.png" style="vertical-align:-50px; display: inline-block ;" alt="P({T}delim{|}{S}{})={P(T,S)}/{sum{T}{}{P(T,S)}}" title="P({T}delim{|}{S}{})={P(T,S)}/{sum{T}{}{P(T,S)}}"/><br />
　Tagger(S)= <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_981.5_8609d029899bacd5c25daf16395970ce.png" style="vertical-align:-18.5px; display: inline-block ;" alt="argmax_{T in T^n}logP({T}delim{|}{S}{})" title="argmax_{T in T^n}logP({T}delim{|}{S}{})"/><br />
　　　　　　= <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_981.5_f45bb2a101546bb0c86bdfb86a1e6f89.png" style="vertical-align:-18.5px; display: inline-block ;" alt="argmax_{T in T^n}logP({T,S}{})" title="argmax_{T in T^n}logP({T,S}{})"/><br />
b)	参数估计（Parameter Estimation）<br />
　i.	应用链式法则（Apply chain rule）:<br />
　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_953_21d63f518e8035d959429cb88932da9c.png" style="vertical-align:-47px; display: inline-block ;" alt="P(T,S)={prod{j=1}{n}{P({T_j}delim{|}{S_1,...S_{j-1},T_1,...,T_{j-1}}{})}}*" title="P(T,S)={prod{j=1}{n}{P({T_j}delim{|}{S_1,...S_{j-1},T_1,...,T_{j-1}}{})}}*"/><br />
　　　　　　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_b8cb62139cc29d3698c7257a1594c45e.png" style="vertical-align:-29px; display: inline-block ;" alt="P({S_j}delim{|}{S_1,...S_{j-1}T_1,...,T_{j}}{})" title="P({S_j}delim{|}{S_1,...S_{j-1}T_1,...,T_{j}}{})"/><br />
　ii.	独立性假设（马尔科夫假设）（Assume independence (Markov assumption)）:<br />
　　　　　=<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_953_74ca699819551228cda8ef2f82cca7f3.png" style="vertical-align:-47px; display: inline-block ;" alt="{prod{j=1}{n}{P({T_j}delim{|}{T_{j-2},T_{j-1}}{})}}*P({S_j}delim{|}{T_j}{})" title="{prod{j=1}{n}{P({T_j}delim{|}{T_{j-2},T_{j-1}}{})}}*P({S_j}delim{|}{T_j}{})"/><br />
c)	举例（Example）<br />
　i.	They/PRP never/RB stop/VB thinking/VBG about/IN new/JJ 　ways/NNS to/TO harm/VB our/PROP$ country/NN and/CC our/PRP$ 　people/NN, and/CC neither/DT do/VB we/PRP.<br />
　ii.	P(T, S)=P(PRP|S, S)∗P(They|PRP)∗P(RB|S, PRP)∗P(never|RB)∗&#8230;<br />
d)	估计转移概率（Estimating Transition Probabilities）<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_35cddb9d2621ae98b3ce88644aedab94.png" style="vertical-align:-29px; display: inline-block ;" alt="P({T_j}delim{|}{T_{j-2},T_{j-1}}{})=" title="P({T_j}delim{|}{T_{j-2},T_{j-1}}{})="/><br />
　　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_968_1d38e5fb4a6259343a4f75cb556e3e01.png" style="vertical-align:-32px; display: inline-block ;" alt="{lambda_1}*{{Count(T_{j-2},T_{j-1},T_j)}/{Count(T_{j-2},T_{j-1})}}" title="{lambda_1}*{{Count(T_{j-2},T_{j-1},T_j)}/{Count(T_{j-2},T_{j-1})}}"/><br />
　　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_968_b6aaca9470f9c6ceaa69145762833db6.png" style="vertical-align:-32px; display: inline-block ;" alt="+{lambda_2}*{{Count(T_{j-1},T_j)}/{Count(T_{j-1})}}" title="+{lambda_2}*{{Count(T_{j-1},T_j)}/{Count(T_{j-1})}}"/><br />
　　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_937_40ef8fa7451191a1ee0a3abc694f99ed.png" style="vertical-align:-63px; display: inline-block ;" alt="+{lambda_3}*{{Count(T_j)}/{Count(sum{i}{}{T_i})}}" title="+{lambda_3}*{{Count(T_j)}/{Count(sum{i}{}{T_i})}}"/><br />
e)	估计发射概率（Estimating Emission Probabilities）<br />
　　　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_968_6fa820c24dbe9ac15a7c39ac00ce54e8.png" style="vertical-align:-32px; display: inline-block ;" alt="P({S_j}delim{|}{T_j}{})={Count(S_j,T_j)}/{Count(T_j)}" title="P({S_j}delim{|}{T_j}{})={Count(S_j,T_j)}/{Count(T_j)}"/><br />
　i.	问题（Problem）: 未登录词或罕见词（unknown or rare words）<br />
　　1.	专有名词（Proper names）<br />
　　“King Abdullah of Jordan, the King of Morocco, I mean, there’s a series of places — Qatar, Oman – I mean, places that are developing— Bahrain — they’re all developing the habits of free societies.”<br />
　　2.	新词（New words）<br />
　　“They misunderestimated me.”<br />
f)	处理低频词（Dealing with Low Frequency Words）<br />
　i.	将词表分为两个集合（Split vocabulary into two sets）<br />
　　1.	常用词（Frequent words）— 在训练集中出现超过5次的词（words occurring more than 5 times in training）<br />
　　2.	低频词（Low frequency words）— 训练集中的其他词（all other words）<br />
　ii.	依据前缀、后缀等将低频词映射到一个小的、有限的集合中（Map low frequency words into a small, finite set, depending on prefixes, suffixes etc. (see Bikel et al., 1998)）</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part/">第四部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part/">http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第四讲：标注（第二部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part#comments</comments>
		<pubDate>Sat, 07 Mar 2009 00:00:44 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[TBL]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[自然语言处理综论]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1136</guid>
		<description><![CDATA[自然语言处理：标注
Natural Language Processing: Tagging
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年3月7日）
学习标注（Learning to Tag）
　* 基于转换的学习（Transformation-based Learning）
　* 隐马尔科夫标注器（Hidden Markov Model Taggers）
　* 对数线性模型（Log-linear models）
二、	基于转换的学习（Transformation-based Learning ——TBL）
a)	概述：
　i.	TBL 介于符号法和基于语料库方法之间（TBL is “in between” symbolic and corpus-based methods）；
　ii.	TBL利用了更广泛的词汇知识和句法规则——很少的参数估计（TBL exploit a wider range of lexical and syntactic regularities (very few parameters to estimate)）
　iii.	TBL关键部分（Key TBL components）：
　　1.	一个容许的用于“纠错”的转换规范（a specification of which “error-correcting” transformations are admissible）
　　2.	学习算法（the learning algorithm）
b)	转换（Transformations）
　i.	重写规则(Rewrite [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：标注</strong><br />
Natural Language Processing: Tagging<span id="more-1136"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年3月7日）</p>
<p><strong>学习标注（Learning to Tag）</strong><br />
　<em>* 基于转换的学习（Transformation-based Learning）<br />
　* 隐马尔科夫标注器（Hidden Markov Model Taggers）<br />
　* 对数线性模型（Log-linear models）</em></p>
<p><strong>二、	基于转换的学习（Transformation-based Learning ——TBL）</strong><br />
a)	概述：<br />
　i.	TBL 介于符号法和基于语料库方法之间（TBL is “in between” symbolic and corpus-based methods）；<br />
　ii.	TBL利用了更广泛的词汇知识和句法规则——很少的参数估计（TBL exploit a wider range of lexical and syntactic regularities (very few parameters to estimate)）<br />
　iii.	TBL关键部分（Key TBL components）：<br />
　　1.	一个容许的用于“纠错”的转换规范（a specification of which “error-correcting” transformations are admissible）<br />
　　2.	学习算法（the learning algorithm）<br />
b)	转换（Transformations）<br />
　i.	重写规则(Rewrite rule)： tag1 → tag2, 如果C满足某个条件（if C holds）<br />
　　– 模板是手工选择的（Templates are hand-selected）<br />
　ii.	触发条件（Triggering environment (C)）：:<br />
　　1.	标记触发（tag-triggered）<br />
　　2.	单词触发（word-triggered）<br />
　　3.	形态触发（morphology-triggered）<br />
c)	转换模板（Transformation Templates）<br />
　i.	图略；<br />
　ii.	附：TBL算法的提出者Eric Brill（1995-Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging)中的模板：<br />
　　1. The preceding (following) word is tagged z.<br />
　　2. The word two before (after) is tagged z.<br />
　　3. One of the two preceding (following) words is tagged z.<br />
　　4. One of the three preceding (following) words is tagged z.<br />
　　5. The preceding word is tagged z and the following word is tagged w.<br />
　　6. The preceding (following) word is tagged z and the word two before (after) is tagged w.<br />
　　当条件满足时，将标记１变为标记２（Change tag１ to tag ２ when），其中变量a，b，z和w在词性集里取值（where a, b, z and w are variables over the set of parts of speech）。<br />
　iii.	举例：<br />
　源标记　　　　目标标记　　　　触发条件<br />
　NN	　　　　　　VB	　　　　　previous tag is TO<br />
　VBP	　　　　　VB	　　　　　one of the previous tags is MD<br />
　JJR　　　　　　JJR	　　　　　next tag is JJ<br />
　VBP　　　　　　VB	　　　　　one of the prev. two words is “n’t”<br />
d)	TBL的学习（Learning component of TBL）：<br />
　i.	贪婪搜索转换的最优序列（Greedy search for the optimal sequence of transformations）：<br />
　　1.	选择最好的转换（Select the best transformations）；<br />
　　2.	决定它们应用的顺序（Determine their order of applications）；<br />
e)	算法（Algorithm）<br />
　注释（Notations）：<br />
　　1.	Ck — 第k次迭代时的语料库标注（corpus tagging at iteration k）<br />
　　2.	E(Ck) — k次标注语料库的错误数（the number of mistakes in tagged corpus）<br />
　C0 := corpus with each word tagged with its most frequent tag<br />
　for k:= 0 step 1 do<br />
　　v:=the transformation ui that minimizes r(ui(Ck))<br />
　　if (E(Ck)− E(v(Ck)) < then break fi<br />
　　Ck+1 := v(Ck)<br />
　　τk+1 := τ<br />
　end<br />
　输出序列（Output sequence）: τ1,...,τn<br />
f)	初始化（Initialization）<br />
　i.	备选方案（Alternative approaches）<br />
　　1.	随机（random）<br />
　　2.	频率最多的标记（most frequent tag）<br />
　　3.	...<br />
　ii.	实际上TBL对于初始分配并不敏感（In practice, TBL is not sensitive to the original assignment）<br />
g)	规则应用（Rule Application）：<br />
　i.	从左到右的应用顺序（Left-to-right order of application）<br />
　ii.	Immediate vs delayed effect:<br />
　　Consider “A → B if the preceding tag is A”<br />
　　　– Immediate: AAAA →?<br />
　　　– Delayed: AAAA → ?<br />
h)	规则应用（Rule Selection）：<br />
　i.	我们选择模板及其相应的实例（We select both the template, and its instantiation）；<br />
　ii.	每个规则对已给出的标注进行修改（Each rule τ modifies given annotations）<br />
　　1.	某些情况下提高（improves in some places ）：C<em>improved</em>(τ)<br />
　　2.	某些情况下降低（worsens in some places）：C<em>worsened</em> (τ)<br />
　　3.	对剩余数据不触动（does not touch the remaining data）<br />
　iii.	规则的贡献是（The contribution of the rule is）：<br />
　　C<em>improved</em>(τ)− C<em>worsened</em> (τ)<br />
　iv.	第i次迭代的规则选择（Rule selection at iteration i）：<br />
　　τ_<em>selected</em> (i)= argmax_τ_contrib(τ)<br />
i)	TBL标注器（The Tagger）：<br />
　i.	输入（Input）：<br />
　　1.	未标注的数据（untagged data）；<br />
　　2.	经由学习器学习得到规则（S）（rules (S) learned by the learner）；<br />
　ii.	标注（Tagging）：<br />
　　1.	使用与学习器相同的初始值（use the same initialization as the learner did）<br />
　　2.	应用所有学习得到的规则，保持合适的应用顺序（apply all the learned rules ，keep the proper order of application)<br />
　　3.	最后的即时数据为输出（the last intermediate data is the output）<br />
j)	讨论（Discussion）<br />
　i.	TBL的时间复杂度是多少（What is the time complexity of TBL）?<br />
　ii.	有无可能建立一个无监督的TBL标注器（Is it possible to develop an unsupervised TBL tagger）?<br />
k)	与其他模型的关系（Relation to Other Models）：<br />
　i.	概率模型（Probabilistic models）：<br />
　　1.	 “k-best”标注（“k-best” tagging）；<br />
　　2.	对先验知识编码（encoding of prior knowledge）；<br />
　ii.	决策树（Decision Trees）<br />
　　1.	TBL 很有效（TBL is more powerful (Brill, 1995)）；<br />
　　2.	TBL对于过度学习“免疫”（TBL is immune to overfitting）。</p>
<p>关于TBL，《自然语言处理综论》第8章有更通俗的解释和更详细的算法说明。</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part/">第三部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part/">http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='Permanent Link: MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第四讲：标注（第一部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part#comments</comments>
		<pubDate>Tue, 24 Feb 2009 00:00:15 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[标注]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[词性]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=936</guid>
		<description><![CDATA[自然语言处理：标注
Natural Language Processing: Tagging
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年2月24日）
上一讲主要内容回顾（Last time）
　语言模型(Language modeling):
　　n-gram模型（n-gram models）
　　语言模型评测（LM evaluation）
　平滑(Smoothing):
　　打折（Discounting）
　　回退（Backoff）
　　插值（Interpolation）
本讲主要内容（Today）：
　标注（Tagging）
一、	基本介绍
a)	标注问题（Tagging）
　i.	任务（Task）: 在句子中为每个词标上合适的词性（Label each word in a sentence with its appropriate part of speech）
　ii.	输入（Input）: Our enemies are innovative and resourceful , and so are we. They never stop thinking about new ways to harm our country and our people, and neither do we.
　iii.	输出（Output）: [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：标注</strong><br />
Natural Language Processing: Tagging<span id="more-936"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn">www.52nlp.cn</a> ，2009年2月24日）</p>
<p>上一讲主要内容回顾（Last time）<br />
　语言模型(Language modeling):<br />
　　n-gram模型（n-gram models）<br />
　　语言模型评测（LM evaluation）<br />
　平滑(Smoothing):<br />
　　打折（Discounting）<br />
　　回退（Backoff）<br />
　　插值（Interpolation）<br />
本讲主要内容（Today）：<br />
　<strong>标注（Tagging）</strong></p>
<p><strong>一、	基本介绍</strong><br />
a)	标注问题（Tagging）<br />
　i.	任务（Task）: 在句子中为每个词标上合适的词性（Label each word in a sentence with its appropriate part of speech）<br />
　ii.	输入（Input）: Our enemies are innovative and resourceful , and so are we. They never stop thinking about new ways to harm our country and our people, and neither do we.<br />
　iii.	输出（Output）: Our/PRP$ enemies/NNS are/VBP innovative/JJ and/CC resourceful/JJ ,/, and/CC so/RB are/VB we/PRP ?/?. They/PRP never/RB stop/VB thinking/VBG about/IN new/JJ ways/NNS to/TO harm/VB our/PROP$ country/NN and/CC our/PRP$ people/NN, and/CC neither/DT do/VB we/PRP.<br />
b)	Motivation<br />
　i.	词性标注对于许多应用领域是非常重要的（Part-of-speech(POS) tagging is important for many applications）<br />
　　1.	语法分析（Parsing）<br />
　　2.	语言模型（Language modeling）<br />
　　3.	问答系统和信息抽取（Q&#038;A and Information extraction）<br />
　　4.	文本语音转换（Text-to-speech）<br />
　ii.	标注技术可用于各种任务（Tagging techniques can be used for a variety of tasks）<br />
　　1.	语义标注（Semantic tagging）<br />
　　2.	对话标注（Dialogue tagging）<br />
c)	如何确定标记集（How to determine the tag set）?<br />
　i.	“The definition [of the parts of speech] are very far from having attained the degree of exactitude found in Euclidean geometry” Jespersen, The Philosophy of Grammar<br />
　ii.	粗糙的词典类别划分基本达成一致至少对某些语言来说（Agreement on coarse lexical categories (at least, for some languages)）<br />
　　1.	封闭类（Closed class）: 介词，限定词，代词，小品词，助动词（prepositions, determiners, pronouns, particles, auxiliary verbs）<br />
　　2.	开放类（Open class）: 名词，动词，形容词和副词（nouns, verbs, adjectives and adverbs）<br />
　iii.	各种粒度的多种标记集（Multiple tag sets of various granularity）<br />
　　1.	Penn tag set (45 tags), Brown tag set (87 tags), CLAWS2 tag set (132 tags)<br />
　　2.	示例：Penn Tree Tags<br />
　　标记（Tag） 说明（Description） 举例（Example）<br />
　　CC	　　　　　conjunction	　　　　and, but<br />
　　DT	　　　　　determiner	　　　　　a, the<br />
　　JJ	　　　　　　adjective	　　　　　red<br />
　　NN	　　　　　noun, sing.	　　　　　rose<br />
　　RB	　　　　　　adverb	　　　　　　quickly<br />
　　VBD	　　　　verb, past tense	　　　grew<br />
d)	标注难吗（Is Tagging Hard）?<br />
　i.	举例：“Time flies like an arrow”<br />
　ii.	许多单词可能会出现在几种不同的类别中（Many words may appear in several categories）<br />
　iii.	然而，大多数单词似乎主要在一个类别中出现（However, most words appear predominantly in one category）<br />
　　1.	“Dumb”标注器在给单词标注最常用的标记时获得了90%的准确率（“Dumb” tagger which assigns the most common tag to each word achieves 90% accuracy (Charniak et al., 1993)）<br />
　　2.	对于90%的准确率我们满足吗（Are we happy with 90%）?<br />
　iv.	标注的信息资源（Information Sources in Tagging）：<br />
　　1.	词汇（Lexical）: 观察单词本身（look at word itself）<br />
　　单词（Word）	名词（Noun）	动词（Verb）	介词（Preposition）<br />
　　flies	　　　　　21	　　　　　23	　　　　　0<br />
　　like	　　　　　10	　　　　　30	　　　　　21<br />
　　2.	组合（Syntagmatic）: 观察邻近单词（look at nearby words）<br />
　　——哪个组合更像（What is more likely）: “DT JJ NN” or “DT JJ VBP“?</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part/">第二部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part/">http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第三讲：概率语言模型（第六部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part#comments</comments>
		<pubDate>Mon, 16 Feb 2009 00:00:27 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[EM]]></category>
		<category><![CDATA[Kats回退模型]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[平滑算法]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[期望最大化算法]]></category>
		<category><![CDATA[线性插值]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=822</guid>
		<description><![CDATA[自然语言处理：概率语言模型
Natural Language Processing: Probabilistic Language Modeling
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年2月16日）
六、	插值及回退
a)	The Bias-Variance Trade-Off
　i.	未平滑的三元模型估计(Unsmoothed trigram estimate)：　　　　　　
　　
　ii.	未平滑的二元模型估计(Unsmoothed bigram estimate）：
　　　
　iii.	未平滑的一元模型估计(Unsmoothed unigram estimate)：
　　　
　iv.	这些不同的估计中哪个和“真实”的概率最接近（How close are these different estimates to the “true” probability )?
b)	插值（Interpolation）
　i.	一种解决三元模型数据稀疏问题的方法是在模型中混合使用受数据稀疏影响较小的二元模型和一元模型（One way of solving the sparseness in a trigram model is to mix that model with bigram and unigram models that suffer less from data sparseness）。
　ii.	权值可以使用期望最大化算法（EM）或其它数值优化技术设置（The [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：概率语言模型</strong><br />
Natural Language Processing: Probabilistic Language Modeling<span id="more-822"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（www.52nlp.cn ，2009年2月16日）</p>
<p><strong>六、	插值及回退</strong><br />
a)	The Bias-Variance Trade-Off<br />
　i.	未平滑的三元模型估计(Unsmoothed trigram estimate)：　　　　　　<br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_968_e6dbf86e2c4a269d6bbead2b76afcd71.png" style="vertical-align:-32px; display: inline-block ;" alt="P_ML({w_i}/{w_{i-2},w_{i-1}})={Count(w_{i-2}w_{i-1}w_{i})}/{Count(w_{i-2},w_{i-1})}" title="P_ML({w_i}/{w_{i-2},w_{i-1}})={Count(w_{i-2}w_{i-1}w_{i})}/{Count(w_{i-2},w_{i-1})}"/><br />
　ii.	未平滑的二元模型估计(Unsmoothed bigram estimate）：<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_968_bb6ddec0751cae93506abb4f39927998.png" style="vertical-align:-32px; display: inline-block ;" alt="P_ML({w_i}/{w_{i-1}})={Count(w_{i-1}w_{i})}/{Count(w_{i-1})}" title="P_ML({w_i}/{w_{i-1}})={Count(w_{i-1}w_{i})}/{Count(w_{i-1})}"/><br />
　iii.	未平滑的一元模型估计(Unsmoothed unigram estimate)：<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_950_82d78c5f9c3e3ce5650a6221d44d98dc.png" style="vertical-align:-50px; display: inline-block ;" alt="P_ML({w_i})={Count(w_{i})}/sum{j}{}{Count(w_{j})}" title="P_ML({w_i})={Count(w_{i})}/sum{j}{}{Count(w_{j})}"/><br />
　iv.	这些不同的估计中哪个和“真实”的<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_e6ab5b1759ac160adb45dbd93dcb55a1.png" style="vertical-align:-29px; display: inline-block ;" alt="P({w_i}/{w_{i-2},w_{i-1}})" title="P({w_i}/{w_{i-2},w_{i-1}})"/>概率最接近（How close are these different estimates to the “true” probability <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_e6ab5b1759ac160adb45dbd93dcb55a1.png" style="vertical-align:-29px; display: inline-block ;" alt="P({w_i}/{w_{i-2},w_{i-1}})" title="P({w_i}/{w_{i-2},w_{i-1}})"/>)?<br />
<strong>b)	插值（Interpolation）</strong><br />
　i.	一种解决三元模型数据稀疏问题的方法是在模型中混合使用受数据稀疏影响较小的二元模型和一元模型（One way of solving the sparseness in a trigram model is to mix that model with bigram and unigram models that suffer less from data sparseness）。<br />
　ii.	权值可以使用期望最大化算法（EM）或其它数值优化技术设置（The weights can be set using the Expectation-Maximization Algorithm or another numerical optimization technique）<br />
　iii. 线性插值（Linear Interpolation)<br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_b6d523599ec5e3b5004a27bbd1b40a10.png" style="vertical-align:-29px; display: inline-block ;" alt="hat{P}({w_i}/{w_{i-2},w_{i-1}})={lambda_1}*P_ML({w_i}/{w_{i-2},w_{i-1}})" title="hat{P}({w_i}/{w_{i-2},w_{i-1}})={lambda_1}*P_ML({w_i}/{w_{i-2},w_{i-1}})"/><br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_ff41c68bb482356d4e21ffc4f0b18fdb.png" style="vertical-align:-29px; display: inline-block ;" alt="+{lambda_2}*P_ML({w_i}/w_{i-1})+{lambda_3}*P_ML({w_i})" title="+{lambda_2}*P_ML({w_i}/w_{i-1})+{lambda_3}*P_ML({w_i})"/><br />
　　这里<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_1835b584cac2bbdce72d179f0fc63bda.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_1}+{lambda_2}+{lambda_3}=1" title="{lambda_1}+{lambda_2}+{lambda_3}=1"/>并且<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_c6d45d6a4cdfb52aea7f8d7a31acaa08.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_i}>=0&#8243; title=&#8221;{lambda_i}>=0&#8243;/><img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_1002_c20ad4d76fe97759aa27a0c99bff6710.png" style="vertical-align:2px; display: inline-block ;" alt="" title=""/> 对于所有的 i<br />
　iv.	参数估计（Parameter Estimation）<br />
　　1.	取出训练集的一部分作为“验证”数据（Hold out part of training set as “validation” data）<br />
　　2.	定义<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_80c4962ea44d49af790ec5bccc800569.png" style="vertical-align:-29px; display: inline-block ;" alt="Count_2(w_1,w_2,w_3)" title="Count_2(w_1,w_2,w_3)"/>作为验证集中三元集 <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_3a7c385652ef126c76ec698075139b9b.png" style="vertical-align:-13.5px; display: inline-block ;" alt="w_1,w_2,w_3" title="w_1,w_2,w_3"/> 的出现次数（Define <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_971_80c4962ea44d49af790ec5bccc800569.png" style="vertical-align:-29px; display: inline-block ;" alt="Count_2(w_1,w_2,w_3)" title="Count_2(w_1,w_2,w_3)"/> to be the number of times the trigram <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_3a7c385652ef126c76ec698075139b9b.png" style="vertical-align:-13.5px; display: inline-block ;" alt="w_1,w_2,w_3" title="w_1,w_2,w_3"/> is seen in validation set）<br />
　　3.	选择<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_920da5fe1a74c0085918cee3e46b5b25.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_i}" title="{lambda_i}"/>去最大化(Choose <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_920da5fe1a74c0085918cee3e46b5b25.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_i}" title="{lambda_i}"/> to maximize):<br />
<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_935_e25fc61ea3f33c5b1ecea8ab286d7e4a.png" style="vertical-align:-65px; display: inline-block ;" alt="L({lambda_1},{lambda_2},{lambda_3})=sum{(w_1,w_2,w_3)in{upsilon}}{}{Count_2(w_1,w_2,w_3)}log{hat{P}}({w_3}/{w_2,w_1})" title="L({lambda_1},{lambda_2},{lambda_3})=sum{(w_1,w_2,w_3)in{upsilon}}{}{Count_2(w_1,w_2,w_3)}log{hat{P}}({w_3}/{w_2,w_1})"/><br />
　　这里<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_1835b584cac2bbdce72d179f0fc63bda.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_1}+{lambda_2}+{lambda_3}=1" title="{lambda_1}+{lambda_2}+{lambda_3}=1"/>并且<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_c6d45d6a4cdfb52aea7f8d7a31acaa08.png" style="vertical-align:-13.5px; display: inline-block ;" alt="{lambda_i}>=0&#8243; title=&#8221;{lambda_i}>=0&#8243;/><img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_1002_c20ad4d76fe97759aa27a0c99bff6710.png" style="vertical-align:2px; display: inline-block ;" alt="" title=""/> 对于所有的 i<br />
　　注：关于参数估计的其他内容，由于公式太多，这里略，请参考原始课件<br />
<strong>c)Kats回退模型-两元（Katz Back-Off Models (Bigrams)）：</strong><br />
　i.	定义两个集合（Define two sets）：<br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_951.5_939d819663821f8d0dd161e718409d9c.png" style="vertical-align:-48.5px; display: inline-block ;" alt="A(w_{i-1})=delim{lbrace}{w:Count(w_{i-1},w)>0}{rbrace}&#8221; title=&#8221;A(w_{i-1})=delim{lbrace}{w:Count(w_{i-1},w)>0}{rbrace}&#8221;/><br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_1002_c20ad4d76fe97759aa27a0c99bff6710.png" style="vertical-align:2px; display: inline-block ;" alt="" title=""/><br />
　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_951.5_b6f8e1821665a93a4dac9724c59d310d.png" style="vertical-align:-48.5px; display: inline-block ;" alt="B(w_{i-1})=delim{lbrace}{w:Count(w_{i-1},w)=0}{rbrace}" title="B(w_{i-1})=delim{lbrace}{w:Count(w_{i-1},w)=0}{rbrace}"/><br />
　ii.	一种两元模型（A bigram model）：<br />
<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_901.5_5b03fec8c8dad8e732986fdabdd7adb5.png" style="vertical-align:-98.5px; display: inline-block ;" alt="P_K({w_i}/w_{i-1})=delim{lbrace}{matrix{2}{2}{{{Count^{*}(w_{i-1},w)}/{Count(w_{i-1})}>0}   {if{w_i}{in}{A(w_{i-1})}} {alpha(w_{i-1}){{P_ML(w_{i})}/sum{w{in}B(w_{i-1})}{}{P_ML(w)}} } {if{w_i}{in}{B(w_{i-1})}} }}{}&#8221; title=&#8221;P_K({w_i}/w_{i-1})=delim{lbrace}{matrix{2}{2}{{{Count^{*}(w_{i-1},w)}/{Count(w_{i-1})}>0}   {if{w_i}{in}{A(w_{i-1})}} {alpha(w_{i-1}){{P_ML(w_{i})}/sum{w{in}B(w_{i-1})}{}{P_ML(w)}} } {if{w_i}{in}{B(w_{i-1})}} }}{}&#8221;/><img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_1002_c20ad4d76fe97759aa27a0c99bff6710.png" style="vertical-align:2px; display: inline-block ;" alt="" title=""/><br />
<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_935_62c91f28b816d681fefa4b72ee2e1dca.png" style="vertical-align:-65px; display: inline-block ;" alt="{alpha(w_{i-1})=1-sum{w{in}A(w_{i-1})}{}{{Count^{*}(w_{i-1},w)}/{Count(w_{i-1})}}}" title="{alpha(w_{i-1})=1-sum{w{in}A(w_{i-1})}{}{{Count^{*}(w_{i-1},w)}/{Count(w_{i-1})}}}"/><br />
　iii.	<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_994_fce826615e85c95675e5ef8bc2469ad6.png" style="vertical-align:-6px; display: inline-block ;" alt="Count^*" title="Count^*"/>定义（<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_994_fce826615e85c95675e5ef8bc2469ad6.png" style="vertical-align:-6px; display: inline-block ;" alt="Count^*" title="Count^*"/>definitions）<br />
　　1.	Kats对于Count(x)<5使用Good-Turing方法,对于Count(x)>=5令<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_b8b328844a5fe789c574367d0d8f23f9.png" style="vertical-align:-13.5px; display: inline-block ;" alt="Count^*(x)=Count(x)" title="Count^*(x)=Count(x)"/>(Katz uses Good-Turing method for Count(x)< 5, and <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_b8b328844a5fe789c574367d0d8f23f9.png" style="vertical-align:-13.5px; display: inline-block ;" alt="Count^*(x)=Count(x)" title="Count^*(x)=Count(x)"/>for Count(x)>=5)<br />
　　2.	“Kneser-Ney”方法（“Kneser-Ney” method）：<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_c7c4bdb1adfe1d6a96dcb2744f41cbc9.png" style="vertical-align:-13.5px; display: inline-block ;" alt="Count^*(x)=Count(x)-D" title="Count^*(x)=Count(x)-D"/>,其中 <img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_979_532778161f96562e55cac2b3b3814ff2.png" style="vertical-align:-21px; display: inline-block ;" alt="D={n_1}/{n_1+n_2}" title="D={n_1}/{n_1+n_2}"/><br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_9f213870c7681775515d0d3f74f9bf58.png" style="vertical-align:-13.5px; display: inline-block ;" alt="n_1" title="n_1"/>是频率为1的元素个数（<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_9f213870c7681775515d0d3f74f9bf58.png" style="vertical-align:-13.5px; display: inline-block ;" alt="n_1" title="n_1"/> is a number of elements with frequency 1)<br />
　　　<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_fa13c52e8d8aa4ea7fd1486957d2e3ed.png" style="vertical-align:-13.5px; display: inline-block ;" alt="n_2" title="n_2"/>是频率为2的元素个数（<img src="http://www.52nlp.cn/wp-content/plugins/WpMathEditor/phpmathpublisher/img/math_986.5_fa13c52e8d8aa4ea7fd1486957d2e3ed.png" style="vertical-align:-13.5px; display: inline-block ;" alt="n_2" title="n_2"/> is a number of elements with frequency 2)</p>
<p><strong>七、	综述</strong><br />
a)	N元模型的弱点（Weaknesses of n-gram Models）<br />
　i.	有何想法（Any ideas）?<br />
　　短距离（Short-range）<br />
　　中距离（Mid-range）<br />
　　长距离（Long-range）<br />
b)	更精确的模型（More Refined Models）<br />
　i.	基于类的模型（Class-based models）<br />
　ii.	结构化模型（Structural models）<br />
　iii.	主题和长距离模型（Topical and long-range models）<br />
c)	总结（Summary）<br />
　i.	从一个词表开始（Start with a vocabulary）<br />
　ii.	选择一种模型（Select type of model）<br />
　iii.	参数估计（Estimate Parameters）<br />
d)	工具包参考：<br />
　i. CMU-Cambridge language modeling toolkit:<br />
　　http://mi.eng.cam.ac.uk/~prc14/toolkit.html<br />
　ii.SRILM &#8211; The SRI Language Modeling Toolkit:<br />
　　http://www.speech.sri.com/projects/srilm/</p>
<p>第三讲结束！<br />
第四讲：<a href="http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part/">标注</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part/">http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第五部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-sixth-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
