<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 机器学习</title>
	<atom:link href="http://www.52nlp.cn/category/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>理解EM算法</title>
		<link>http://www.52nlp.cn/%e7%90%86%e8%a7%a3em%e7%ae%97%e6%b3%95</link>
		<comments>http://www.52nlp.cn/%e7%90%86%e8%a7%a3em%e7%ae%97%e6%b3%95#comments</comments>
		<pubDate>Tue, 05 Apr 2011 09:25:56 +0000</pubDate>
		<dc:creator>jenna</dc:creator>
				<category><![CDATA[机器学习]]></category>
		<category><![CDATA[EM]]></category>
		<category><![CDATA[EM算法]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3864</guid>
		<description><![CDATA[EM(Expectation-Maximization)算法在机器学习和自然语言处理应用非常广泛，典型的像是聚类算法K-means和高斯混合模型以及HMM(Hidden Markov Model)。笔者觉得讲EM算法最好的就是斯坦福大学Andrew Ng机器学习课的讲课笔记和视频。本文总结性的给出普遍的EM算法的推导和证明，希望能够帮助接触过EM算法但对它不是很明白的人更好地理解这一算法。 EM算法的目标是找出有隐性变量的概率模型的最大可能性解，它分为两个过程E-step和M-step，E-step通过最初假设或上一步得出的模型参数得到后验概率，M-step重新算出模型的参数，重复这个过程直到目标函数值收敛。我们设观察到的变量所组成的向量为，所有的隐性变量所组成的向量为,模型的参数为（一个或多个参数）。在聚类的情况下，是潜在的类，而就是需要分类的数据。我们的目标就是找出模型的参数使得出现的可能性最大，也就是使下面的对数可能性最大化： 注：这里仿照Andrew Ng 的用法使用而不是，因为是模型的参数而不是随机变量。关于为什么要用EM算法而不是不直接通过得出，是因为这样可能会出现严重的overfitting (这里不详细说明，请参看Pattern Recognition and Machine Learning一书9.2.1节)。 假设是上一个概率分布，所以 最后一步是根据Jensen不等式如果是凹函数，在这个式子中就是对数函数。就是而就是。 当是严格的 凹函数的时候，中等号成立的条件是是常数，也就是说在这个特定的式子中，满足这个条件加上之前的的其实就是后验概率（参看http://www.stanford.edu/class/cs229/materials.html Lecture notes: The EM Algorithm）。这就是EM算法中E-step的由来。 M-step一般来说就是个就是二次规划的问题，通过得出。这里也就不再赘述。 EM算法其实就是coordinate ascent， E-step是将视为常数，选择一个概率分布使得目标函数最大化， M-step就是保持不变，选择使得目标函数最大化，因为每一步的目标函数都比前一步的值大，所以只要目标函数存在最大值，EM算法就会收敛。这个过程用图像表示就是： E-step找到跟（黑色弧线）交于的（蓝色弧线），M-step得到取最大值时的，这样下去直到收敛。（此图源于Andrew） 相关文章: Google&#8217;s Python Class 一个不错的自然语言处理词典 斯坦福大学“自然语言处理”授课视频 MIT自然语言处理第一讲：简介和概述（第三部分） Google&#8217;s Python Class &#8211; SOS &#8230; <a href="http://www.52nlp.cn/%e7%90%86%e8%a7%a3em%e7%ae%97%e6%b3%95">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/googles-python-class' rel='bookmark' title='Google&#8217;s Python Class'>Google&#8217;s Python Class</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%80%e4%b8%aa%e4%b8%8d%e9%94%99%e7%9a%84%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e8%af%8d%e5%85%b8' rel='bookmark' title='一个不错的自然语言处理词典'>一个不错的自然语言处理词典</a></li>
<li><a href='http://www.52nlp.cn/%e6%96%af%e5%9d%a6%e7%a6%8f%e5%a4%a7%e5%ad%a6-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86-%e6%8e%88%e8%af%be%e8%a7%86%e9%a2%91' rel='bookmark' title='斯坦福大学“自然语言处理”授课视频'>斯坦福大学“自然语言处理”授课视频</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class-sos' rel='bookmark' title='Google&#8217;s Python Class &#8211; SOS'>Google&#8217;s Python Class &#8211; SOS</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class-sos-%e7%bb%ad-%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Google’s Python Class SOS 续 &#8211;下载'>Google’s Python Class SOS 续 &#8211;下载</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-4' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法4'>HMM学习最佳范例七：前向-后向算法4</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-3' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法3'>HMM学习最佳范例七：前向-后向算法3</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>EM(Expectation-Maximization)<span style="font-family: 'SimSun'">算法在机器学习和自然语言处理应用非常广泛，典型的像是聚类算法</span>K-means<span style="font-family: 'SimSun'">和高斯混合模型以及</span>HMM(Hidden Markov Model)<span style="font-family: 'SimSun'">。笔者觉得讲</span>EM<span style="font-family: 'SimSun'">算法最好的就是斯坦福大学</span>Andrew Ng<span style="font-family: 'SimSun'">机器学习课的讲课笔记和视频。本文总结性的给出普遍的</span>EM<span style="font-family: 'SimSun'">算法的推导和证明，希望能够帮助接触过</span>EM<span style="font-family: 'SimSun'">算法但对它不是很明白的人更好地理解这一算法。</span></p>
<p>EM<span style="font-family: 'SimSun'">算法的目标是找出有隐性变量的概率模型的最大可能性解，它分为两个过程</span>E-step<span style="font-family: 'SimSun'">和</span>M-step<span style="font-family: 'SimSun'">，</span>E-step<span style="font-family: 'SimSun'">通过最初假设或上一步得出的模型参数得到后验概率，</span>M-step<span style="font-family: 'SimSun'">重新算出模型的参数，重复这个过程直到目标函数值收敛。我们设观察到的变量所组成的向量为</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-1.jpg" alt="[image]" width="19" height="17" /></sub><span style="font-family: 'SimSun'">，所有的隐性变量所组成的向量为</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-2.jpg" alt="[image]" width="16" height="17" /></sub>,<span style="font-family: 'SimSun'">模型的参数为</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-3.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">（一个或多个参数）。在聚类的情况下，</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-4.jpg" alt="[image]" width="16" height="17" /></sub><span style="font-family: 'SimSun'">是潜在的类，而</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-5.jpg" alt="[image]" width="19" height="17" /></sub><span style="font-family: 'SimSun'">就是需要分类的数据。我们的目标就是找出模型的参数</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-6.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">使得</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-7.jpg" alt="[image]" width="19" height="17" /></sub><span style="font-family: 'SimSun'">出现的可能性最大，也就是使下面的对数可能性最大化：</span></p>
<p><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-8.jpg" alt="[image]" width="197" height="36" /></sub></p>
<p><span style="font-family: 'SimSun'">注：这里仿照</span>Andrew Ng <span style="font-family: 'SimSun'">的用法使用</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-9.jpg" alt="[image]" width="55" height="21" /></sub><span style="font-family: 'SimSun'">而不是</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-10.jpg" alt="[image]" width="59" height="21" /></sub><span style="font-family: 'SimSun'">，因为</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-11.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">是模型的参数而不是随机变量。关于为什么要用</span>EM<span style="font-family: 'SimSun'">算法而不是不直接通过</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-12.jpg" alt="[image]" width="119" height="41" /></sub><span style="font-family: 'SimSun'">得出</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-13.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">，是因为这样可能会出现严重的</span>overfitting (<span style="font-family: 'SimSun'">这里不详细说明，请参看</span>Pattern Recognition and Machine Learning<span style="font-family: 'SimSun'">一书</span>9.2.1<span style="font-family: 'SimSun'">节</span>)<span style="font-family: 'SimSun'">。</span></p>
<p><span style="font-family: 'SimSun'">假设</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-14.jpg" alt="[image]" width="45" height="24" /></sub><span style="font-family: 'SimSun'">是</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-15.jpg" alt="[image]" width="17" height="24" /></sub><span style="font-family: 'SimSun'">上一个概率分布，所以</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-16.jpg" alt="[image]" width="85" height="39" /></sub></p>
<p><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-17.jpg" alt="[image]" width="259" height="173" /></sub></p>
<p><span style="font-family: 'SimSun'">最后一步是根据</span>Jensen<span style="font-family: 'SimSun'">不等式</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-18.jpg" alt="[image]" width="135" height="21" /></sub><span style="font-family: 'SimSun'">如果</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-19.jpg" alt="[image]" width="16" height="21" /></sub><span style="font-family: 'SimSun'">是凹函数，在这个式子中就是对数函数。</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-20.jpg" alt="[image]" width="157" height="47" /></sub><span style="font-family: 'SimSun'">就是</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-21.jpg" alt="[image]" width="125" height="45" /></sub><span style="font-family: 'SimSun'">而</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-22.jpg" alt="[image]" width="157" height="47" /></sub><span style="font-family: 'SimSun'">就是</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-23.jpg" alt="[image]" width="124" height="45" /></sub><span style="font-family: 'SimSun'">。</span> <span style="font-family: 'SimSun'">当</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-24.jpg" alt="[image]" width="16" height="21" /></sub><span style="font-family: 'SimSun'">是严格的</span> <span style="font-family: 'SimSun'">凹函数的时候，</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-25.jpg" alt="[image]" width="135" height="21" /></sub><span style="font-family: 'SimSun'">中等号成立的条件是</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-26.jpg" alt="[image]" width="19" height="17" /></sub><span style="font-family: 'SimSun'">是常数，也就是说在这个特定的式子中</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-27.jpg" alt="[image]" width="105" height="45" /></sub><span style="font-family: 'SimSun'">，满足这个条件加上之前的</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-28.jpg" alt="[image]" width="85" height="39" /></sub><span style="font-family: 'SimSun'">的</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-29.jpg" alt="[image]" width="45" height="24" /></sub><span style="font-family: 'SimSun'">其实就是后验概率</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-30.jpg" alt="[image]" width="67" height="24" /></sub><span style="font-family: 'SimSun'">（参看</span><a class="Hyperlink" href="http://www.stanford.edu/class/cs229/materials.html">http://www.stanford.edu/class/cs229/materials.html</a> Lecture notes: The EM Algorithm<span style="font-family: 'SimSun'">）。这就是</span>EM<span style="font-family: 'SimSun'">算法中</span>E-step<span style="font-family: 'SimSun'">的由来。</span></p>
<p>M-step<span style="font-family: 'SimSun'">一般来说就是个就是二次规划的问题，通过</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-31.jpg" alt="[image]" width="119" height="41" /></sub><span style="font-family: 'SimSun'">得出</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-32.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">。这里也就不再赘述。</span></p>
<p>EM<span style="font-family: 'SimSun'">算法其实就是</span>coordinate ascent<span style="font-family: 'SimSun'">，</span> E-step<span style="font-family: 'SimSun'">是将</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-33.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">视为常数，选择一个概率分布</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-34.jpg" alt="[image]" width="45" height="24" /></sub><span style="font-family: 'SimSun'">使得目标函数</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-35.jpg" alt="[image]" width="69" height="21" /></sub><span style="font-family: 'SimSun'">最大化，</span> M-step<span style="font-family: 'SimSun'">就是保持</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-36.jpg" alt="[image]" width="45" height="24" /></sub><span style="font-family: 'SimSun'">不变，选择</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-37.jpg" alt="[image]" width="13" height="19" /></sub><span style="font-family: 'SimSun'">使得目标函数</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-38.jpg" alt="[image]" width="69" height="21" /></sub><span style="font-family: 'SimSun'">最大化，因为每一步的目标函数都比前一步的值大，所以只要目标函数存在最大值，</span>EM<span style="font-family: 'SimSun'">算法就会收敛。这个过程用图像表示就是：</span><br />
<a href="http://www.52nlp.cn/%e7%90%86%e8%a7%a3em%e7%ae%97%e6%b3%95/image-12" rel="attachment wp-att-3876"><img src="http://www.52nlp.cn/wp-content/uploads/2011/04/Image-12.png" alt="" width="354" height="324" class="alignnone size-full wp-image-3876" /></a><br />
E-step<span style="font-family: 'SimSun'">找到跟</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-39.jpg" alt="[image]" width="69" height="21" /></sub><span style="font-family: 'SimSun'">（黑色弧线）交于</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-40.jpg" alt="[image]" width="17" height="21" /></sub><span style="font-family: 'SimSun'">的</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-41.jpg" alt="[image]" width="177" height="47" /></sub><span style="font-family: 'SimSun'">（蓝色弧线），</span>M-step<span style="font-family: 'SimSun'">得到</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-42.jpg" alt="[image]" width="177" height="47" /></sub><span style="font-family: 'SimSun'">取最大值时的</span><sub><img style="border: 0pt none;margin: 0pt 0pt 0pt 0pt" src="http://www.junlanl.com/image/em_1-43.jpg" alt="[image]" width="27" height="21" /></sub><span style="font-family: 'SimSun'">，这样下去直到收敛。</span>（此图源于Andrew）</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/googles-python-class' rel='bookmark' title='Google&#8217;s Python Class'>Google&#8217;s Python Class</a></li>
<li><a href='http://www.52nlp.cn/%e4%b8%80%e4%b8%aa%e4%b8%8d%e9%94%99%e7%9a%84%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e8%af%8d%e5%85%b8' rel='bookmark' title='一个不错的自然语言处理词典'>一个不错的自然语言处理词典</a></li>
<li><a href='http://www.52nlp.cn/%e6%96%af%e5%9d%a6%e7%a6%8f%e5%a4%a7%e5%ad%a6-%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86-%e6%8e%88%e8%af%be%e8%a7%86%e9%a2%91' rel='bookmark' title='斯坦福大学“自然语言处理”授课视频'>斯坦福大学“自然语言处理”授课视频</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class-sos' rel='bookmark' title='Google&#8217;s Python Class &#8211; SOS'>Google&#8217;s Python Class &#8211; SOS</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/googles-python-class-sos-%e7%bb%ad-%e4%b8%8b%e8%bd%bd' rel='bookmark' title='Google’s Python Class SOS 续 &#8211;下载'>Google’s Python Class SOS 续 &#8211;下载</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-4' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法4'>HMM学习最佳范例七：前向-后向算法4</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-3' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法3'>HMM学习最佳范例七：前向-后向算法3</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%90%86%e8%a7%a3em%e7%ae%97%e6%b3%95/feed</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>条件随机场文献阅读指南</title>
		<link>http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97</link>
		<comments>http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97#comments</comments>
		<pubDate>Mon, 24 May 2010 15:49:02 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器学习]]></category>
		<category><![CDATA[条件随机场]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[Brown90]]></category>
		<category><![CDATA[CRF]]></category>
		<category><![CDATA[Hanna Wallach]]></category>
		<category><![CDATA[John D. Lafferty]]></category>
		<category><![CDATA[文献]]></category>
		<category><![CDATA[最大熵模型]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3378</guid>
		<description><![CDATA[　　与最大熵模型相似，条件随机场（Conditional random fields，CRFs）是一种机器学习模型，在自然语言处理的许多领域（如词性标注、中文分词、命名实体识别等）都有比较好的应用效果。条件随机场最早由John D. Lafferty提出，其也是Brown90的作者之一，和贾里尼克相似，在离开IBM后他去了卡耐基梅隆大学继续搞学术研究，2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。 　　关于条件随机场的参考文献及其他资料，Hanna Wallach在05年整理和维护的这个页面“conditional random fields”非常不错，其中涵盖了自01年CRF提出以来的很多经典论文（不过似乎只到05年，之后并未更新）以及几个相关的工具包(不过也没有包括CRF++），但是仍然非常值得入门条件随机场的读者参考，以下摘选自该网页。 introduction Conditional random fields (CRFs) are a probabilistic framework for labeling and segmenting structured data, such as sequences, trees and &#8230; <a href="http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/several-different-programming-language-version-of-hmm' rel='bookmark' title='几种不同程序语言的HMM版本'>几种不同程序语言的HMM版本</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/strong-author-team-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:强大的作者阵容'>SMT经典再回首之Brown90:强大的作者阵容</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='如何学习自然语言处理'>如何学习自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　与最大熵模型相似，条件随机场（Conditional random fields，CRFs）是一种机器学习模型，在自然语言处理的许多领域（如词性标注、中文分词、命名实体识别等）都有比较好的应用效果。条件随机场最早由John D. Lafferty提出，其也是<a href="http://www.52nlp.cn/strong-author-team-of-smt-classic-brown90">Brown90</a>的作者之一，和贾里尼克相似，在离开IBM后他去了卡耐基梅隆大学继续搞学术研究，2001年以第一作者的身份发表了CRF的经典论文 “Conditional random fields: Probabilistic models for segmenting and labeling sequence data”。<span id="more-3378"></span><br />
　　关于条件随机场的参考文献及其他资料，Hanna Wallach在05年整理和维护的这个页面“<a href="http://www.inference.phy.cam.ac.uk/hmw26/crf/">conditional random fields</a>”非常不错，其中涵盖了自01年CRF提出以来的很多经典论文（不过似乎只到05年，之后并未更新）以及几个相关的工具包(不过也没有包括CRF++），但是仍然非常值得入门条件随机场的读者参考，以下摘选自该网页。</p>
<h1><a name="introduction">introduction</a></h1>
<p>Conditional random fields (CRFs) are a probabilistic framework for labeling and segmenting structured data, such as sequences, trees and lattices. The underlying idea is that of defining a conditional probability distribution over label sequences given a particular observation sequence, rather than a joint distribution over both label and observation sequences. The primary advantage of CRFs over hidden Markov models is their conditional nature, resulting in the relaxation of the independence assumptions required by HMMs in order to ensure tractable inference. Additionally, CRFs avoid the label bias problem, a weakness exhibited by maximum entropy Markov models (MEMMs) and other conditional Markov models based on directed graphical models. CRFs outperform both MEMMs and HMMs on a number of real-world tasks in many fields, including bioinformatics, computational linguistics and speech recognition.</p>
<h1><a name="tutorial">tutorial</a></h1>
<p>Hanna M. Wallach. <a href="http://www.inference.phy.cam.ac.uk/hmw26/papers/crf_intro.pdf">Conditional Random  Fields: An Introduction.</a> Technical Report MS-CIS-04-21. Department of Computer and Information Science, University of Pennsylvania, 2004.</p>
<h1><a name="papers">papers by year</a></h1>
<h2><a name="2001">2001</a></h2>
<p>John Lafferty, Andrew McCallum, Fernando Pereira. <a href="http://www.cs.umass.edu/%7Emccallum/papers/crf-icml01.ps.gz">Conditional Random  Fields: Probabilistic Models for Segmenting and Labeling Sequence Data.</a> In <em>Proceedings of the Eighteenth International Conference on Machine Learning</em> (ICML-2001), 2001.</p>
<h2><a name="2002">2002</a></h2>
<p>Hanna Wallach. <a href="http://www.cogsci.ed.ac.uk/%7Eosborne/msc-projects/wallach.ps.gz">Efficient Training  of Conditional Random Fields.</a> M.Sc. thesis, Division of Informatics, University of Edinburgh, 2002.</p>
<p>Thomas G. Dietterich. <a href="http://eecs.oregonstate.edu/%7Etgd/publications/mlsd-ssspr.pdf">Machine Learning  for Sequential Data: A Review.</a> In <em>Structural, Syntactic, and Statistical Pattern Recognition; Lecture Notes in Computer Science, Vol. 2396</em>, T. Caelli (Ed.), pp. 15–30, Springer-Verlag, 2002.</p>
<h2><a name="2003">2003</a></h2>
<p>Fei Sha and Fernando Pereira. <a href="http://www.cis.upenn.edu/%7Efeisha/pubs/shallow03.pdf">Shallow Parsing with Conditional Random Fields.</a> In <em>Proceedings of the 2003 Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics</em> (HLT/NAACL-03), 2003.</p>
<p>Andrew McCallum. <a href="http://www.cs.umass.edu/%7Emccallum/papers/ifcrf-uai2003.pdf">Efficiently Inducing  Features of Conditional Random Fields.</a> In <em>Proceedings of the 19th Conference in Uncertainty in Articifical Intelligence</em> (UAI-2003), 2003.</p>
<p>David Pinto, Andrew McCallum, Xing Wei and W. Bruce Croft. <a href="http://www.cs.umass.edu/%7Emccallum/papers/crftable-sigir2003.pdf">Table Extraction  Using Conditional Random Fields.</a> In <em>Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval</em> (SIGIR 2003), 2003.</p>
<p>Andrew McCallum and Wei Li. <a href="http://cnts.uia.ac.be/conll2003/pdf/18891mcc.pdf">Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons.</a> In <em>Proceedings of the Seventh Conference on Natural Language Learning</em> (CoNLL), 2003.</p>
<p>Wei Li and Andrew McCallum. <a href="http://www.cs.umass.edu/%7Emccallum/papers/hindi-talip2003.pdf">Rapid Development  of Hindi Named Entity Recognition Using Conditional Random Fields and Feature Induction.</a> In <em>ACM Transactions on Asian Language Information Processing</em> (TALIP), 2003.</p>
<p>Yasemin Altun and Thomas Hofmann. <a href="http://www.cs.brown.edu/people/altun/pubs/AltunHofmann-EuroSpeech2003.pdf">Large Margin  Methods for Label Sequence Learning.</a> In <em>Proceedings of 8th European Conference on Speech Communication and Technology</em> (EuroSpeech), 2003.</p>
<p>Simon Lacoste-Julien. <a href="http://www.cs.berkeley.edu/%7Eslacoste/school/cs281a/project/M3netReportpdf.pdf">Combining SVM  with graphical models for supervised classification: an introduction to Max-Margin Markov Networks</a>. CS281A Project Report, UC Berkeley, 2003.</p>
<blockquote></blockquote>
<h2><a name="2004">2004</a></h2>
<p>Andrew McCallum, Khashayar Rohanimanesh and Charles Sutton. <a href="http://www.cs.umass.edu/%7Emccallum/papers/dcrf-nips03.pdf">Dynamic Conditional  Random Fields for Jointly Labeling Multiple Sequences.</a> Workshop on Syntax, Semantics, Statistics; 16th Annual Conference on Neural Information Processing Systems (NIPS 2003), 2004.</p>
<p>Kevin Murphy, Antonio Torralba and William T.F. Freeman. <a href="http://web.mit.edu/torralba/www/nips2003.pdf">Using the forest to see the trees: a graphical model relating features, objects and scenes.</a> In <em>Advances in Neural Information Processing Systems 16</em> (NIPS 2003), 2004.</p>
<blockquote></blockquote>
<p>Sanjiv Kumar and Martial Hebert. <a href="http://www-2.cs.cmu.edu/%7Eskumar/DRF/modDRF.pdf">Discriminative Fields for Modeling Spatial Dependencies in Natural Images.</a> In <em>Advances in Neural Information Processing Systems 16</em> (NIPS 2003), 2004.</p>
<p>Ben Taskar, Carlos Guestrin and Daphne Koller. <a href="http://books.nips.cc/papers/files/nips16/NIPS2003_AA04.pdf">Max-Margin Markov  Networks.</a> In <em>Advances in Neural Information Processing Systems 16</em> (NIPS 2003), 2004.</p>
<blockquote></blockquote>
<p>Burr Settles. <a href="http://www.cs.wisc.edu/%7Ebsettles/pub/bsettles-nlpba04.pdf">Biomedical Named  Entity Recognition Using Conditional Random Fields and Rich Feature Sets.</a> To appear in <em>Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications</em> (NLPBA), 2004.</p>
<p>A demo of the system can be downloaded <a href="http://www.cs.wisc.edu/%7Ebsettles/abner/">here</a>.</p>
<p>Charles Sutton, Khashayar Rohanimanesh and Andrew McCallum. <a href="http://www.aicml.cs.ualberta.ca/banff04/icml/pages/papers/308.pdf">Dynamic Conditional  Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data.</a> In <em>Proceedings of the Twenty-First International Conference on Machine Learning</em> (ICML 2004), 2004.</p>
<p>John Lafferty, Xiaojin Zhu and Yan Liu. <a href="http://portal.acm.org/citation.cfm?id=1015330.1015337">Kernel conditional random fields: representation and clique selection.</a> In <em>Proceedings of the Twenty-First International Conference on Machine Learning</em> (ICML 2004), 2004.</p>
<p>Xuming He, Richard Zemel, and Miguel Á. Carreira-Perpiñán. <a href="http://www.cs.toronto.edu/pub/zemel/Papers/cvpr04.pdf">Multiscale conditional random fields for image labelling.</a> In <em>Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition</em> (CVPR 2004), 2004.</p>
<p>Yasemin Altun, Alex J. Smola, Thomas Hofmann. <a href="http://www.cs.brown.edu/%7Eth/papers/AltSmoHof-UAI2004.pdf">Exponential Families  for Conditional Random Fields.</a> In <em>Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence</em> (UAI-2004), 2004.</p>
<p>Michelle L. Gregory and Yasemin Altun. <a href="http://www.cs.brown.edu/people/altun/pubs/GregoryAltun.pdf">Using Conditional Random Fields to Predict Pitch Accents in Conversational Speech.</a> In <em>Proceedings of the 42<sup>nd</sup> Annual Meeting of the Association for Computational Linguistics</em> (ACL 2004), 2004.</p>
<p>Brian Roark, Murat Saraclar, Michael Collins and Mark Johnson. <a href="http://www.cslu.ogi.edu/people/roark/ACL04CRFLM.pdf">Discriminative Language  Modeling with Conditional Random Fields and the Perceptron Algorithm.</a> In <em>Proceedings of the 42<sup>nd</sup> Annual Meeting of the Association for Computational Linguistics</em> (ACL 2004), 2004.</p>
<p>Ryan McDonald and Fernando Pereira. <a href="http://www.pdg.cnb.uam.es/BioLINK/workshop_BioCreative_04/handout/pdf/task1A.pdf">Identifying Gene  and Protein Mentions in Text Using Conditional Random Fields.</a> BioCreative, 2004.</p>
<p>Trausti T. Kristjansson, Aron Culotta, Paul Viola and Andrew McCallum.  <a href="http://http//www.cs.umass.edu/%7Emccallum/papers/addrie-aaai04.pdf">Interactive Information  Extraction with Constrained Conditional Random Fields.</a> In <em>Proceedings of the Nineteenth National Conference on Artificial Intelligence</em> (AAAI 2004), 2004.</p>
<p>Thomas G. Dietterich, Adam Ashenfelter and Yaroslav Bulatov. <a href="http://web.engr.oregonstate.edu/%7Etgd/publications/ml2004-treecrf.pdf">Training Conditional  Random Fields via Gradient Tree Boosting.</a> In <em>Proceedings of the Twenty-First International Conference on Machine Learning</em> (ICML 2004), 2004.</p>
<blockquote></blockquote>
<p>John Lafferty, Yan Liu and Xiaojin Zhu. <a href="http://www.aladdin.cs.cmu.edu/papers/pdfs/y2004/kernecon.pdf">Kernel Conditional  Random Fields: Representation, Clique Selection, and Semi-Supervised Learning.</a> Technical Report CMU-CS-04-115, Carnegie Mellon University, 2004.</p>
<p>Fuchun Peng and Andrew McCallum (2004). <a href="http://acl.ldc.upenn.edu/hlt-naacl2004/main/pdf/176_Paper.pdf">Accurate Information  Extraction from Research Papers using Conditional Random Fields.</a> In <em>Proceedings of Human Language Technology Conference and North American Chapter of the Association for Computational Linguistics</em> (HLT/NAACL-04), 2004.</p>
<p>Yasemin Altun, Thomas Hofmann and Alexander J. Smola. <a href="http://www.cs.brown.edu/%7Eth/papers/AltHofSmo-ICML2004.pdf">Gaussian process  classification for segmenting and annotating sequences.</a> In <em>Proceedings of the Twenty-First International Conference on Machine Learning</em> (ICML 2004), 2004.</p>
<p>Yasemin Altun and Thomas Hofmann. <a href="http://www.cs.brown.edu/people/altun/pubs/CS-03-23.ps">Gaussian Process Classification for Segmenting and Annotating Sequences.</a> Technical Report CS-04-12, Department of Computer Science, Brown University, 2004.</p>
<h2><a name="2005">2005</a></h2>
<p>Cristian Smimchisescu, Atul Kanaujia, Zhiguo Li and Dimitris Metaxus. <a href="http://www.cs.toronto.edu/%7Ecrismin/PAPERS/iccv05.pdf">Conditional Models  for Contextual Human Motion Recognition.</a> In <em>Proceedings of the International Conference on Computer Vision</em>, (ICCV 2005), Beijing, China, 2005.</p>
<p>Ariadna Quattoni, Michael Collins and Trevor Darrel. <a href="http://books.nips.cc/papers/files/nips17/NIPS2004_0810.pdf"> Conditional Random Fields for Object Recognition.</a> In <em>Advances in Neural Information Processing Systems 17</em> (NIPS 2004), 2005.</p>
<p>Jospeh Bockhorst and Mark Craven. <a href="http://books.nips.cc/papers/files/nips17/2004_0745.pdf"> Markov Networks for Detecting Overlapping Elements in Sequence Data.</a> In <em>Advances in Neural Information Processing Systems 17</em> (NIPS 2004), 2005.</p>
<p>Antonio Torralba, Kevin P. Murphy, William T. Freeman. <a href="http://www.ai.mit.edu/%7Emurphyk/Papers/BRFaimemo.pdf">Contextual models for object detection using boosted random fields.</a> In <em>Advances in Neural Information Processing Systems 17</em> (NIPS 2004), 2005.</p>
<p>Sunita Sarawagi and William W. Cohen. <a href="http://www-2.cs.cmu.edu/%7Ewcohen/postscript/semiCRF.pdf">Semi-Markov Conditional  Random Fields for Information Extraction.</a> In <em>Advances in Neural Information Processing Systems 17</em> (NIPS 2004), 2005.</p>
<blockquote></blockquote>
<p>Yuan Qi, Martin Szummer and Thomas P. Minka. <a href="http://people.csail.mit.edu/u/a/alanqi/public_html/papers/Qi-Bayesian-CRF-AIstat05.pdf">Bayesian Conditional  Random Fields.</a> To appear in <cite>Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics</cite> (AISTATS 2005), 2005.</p>
<p>Aron Culotta, David Kulp and Andrew McCallum. <a href="http://www.cs.umass.edu/%7Eculotta/pubs/crfgene.pdf">Gene Prediction with Conditional Random Fields.</a> Technical Report UM-CS-2005-028. University of Massachusetts, Amherst, 2005.</p>
<p>Yang Wang and Qiang Ji. <a href="http://www.geocities.com/wang_yang_mr/publication/DCRFcvpr05.pdf">A Dynamic Conditional Random Field Model for Object Segmentation in Image Sequences.</a> In <cite>IEEE Computer Society Conference on Computer Vision and Pattern Recognition</cite> (CVPR 2005), Volume 1, 2005.</p>
<h2><a name="2010">2010</a></h2>
<p><a href="http://arxiv.org/PS_cache/arxiv/pdf/1011/1011.4088v1.pdf"target=_blank>An Introduction to Conditional Random Fields</a>. Charles Sutton, Andrew McCallum. Foundations and Trends in Machine Learning. To appear. 2011.<br />
（注：这篇论文由水木nlp版boycat大牛推荐，非常感谢）</p>
<h1><a name="software">software</a></h1>
<p><a href="http://mallet.cs.umass.edu/">MALLET</a>: A Machine Learning for Language Toolkit.</p>
<blockquote><p>MALLET is an integrated collection of Java code useful for statistical natural language processing, document classification, clustering, information extraction, and other machine learning applications to text.</p></blockquote>
<p><a href="http://www.cs.wisc.edu/%7Ebsettles/abner/">ABNER</a>: A Biomedical Named Entity Recognizer.</p>
<blockquote><p>ABNER is a text analysis tool for molecular biology. It is essentially an interactive, user-friendly interface to a system designed as part of the NLPBA/BioNLP 2004 Shared Task challenge.</p></blockquote>
<p><a href="http://minorthird.sourceforge.net/">MinorThird</a>.</p>
<blockquote><p>MinorThird is a collection of Java classes for storing text, annotating text, and learning to extract entities and categorize text.</p></blockquote>
<p><a href="http://www.cs.ubc.ca/%7Emurphyk/Software/CRF/crf.html">Kevin  Murphy&#8217;s MATLAB CRF code</a>.</p>
<blockquote><p>Conditional random fields (chains, trees and general graphs; includes BP code).</p></blockquote>
<p><a href="http://crf.sourceforge.net/">Sunita Sarawagi&#8217;s CRF package</a>.</p>
<blockquote><p>The CRF package is a Java implementation of conditional random fields  for sequential labeling.</p></blockquote>
<p>　　最后推荐<a href="http://crfpp.sourceforge.net/">CRF++:Yet Another CRF toolkit</a>，如果读者对于基于字标注的中文分词感兴趣，可以很快的利用该工具包构造一个基于条件随机场的中文分词工具，而且性能也不赖。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/条件随机场文献阅读指南">http://www.52nlp.cn/条件随机场文献阅读指南</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/several-different-programming-language-version-of-hmm' rel='bookmark' title='几种不同程序语言的HMM版本'>几种不同程序语言的HMM版本</a></li>
<li><a href='http://www.52nlp.cn/maximum-entropy-model-tutorial-reading' rel='bookmark' title='最大熵模型文献阅读指南'>最大熵模型文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/strong-author-team-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:强大的作者阵容'>SMT经典再回首之Brown90:强大的作者阵容</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-common-abbreviations-acronyms' rel='bookmark' title='自然语言处理及计算语言学常见缩略语'>自然语言处理及计算语言学常见缩略语</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-6' rel='bookmark' title='HMM在自然语言处理中的应用一：词性标注6'>HMM在自然语言处理中的应用一：词性标注6</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-seven-other-book' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之七：其他书籍'>自然语言处理与计算语言学书籍汇总之七：其他书籍</a></li>
<li><a href='http://www.52nlp.cn/getting-started-in-natural-language-processing' rel='bookmark' title='如何学习自然语言处理'>如何学习自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/mapreduce%e4%b8%8e%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86' rel='bookmark' title='MapReduce与自然语言处理'>MapReduce与自然语言处理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>立委随笔：机器学习和自然语言处理</title>
		<link>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86</link>
		<comments>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86#comments</comments>
		<pubDate>Mon, 22 Feb 2010 16:35:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器学习]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[转载]]></category>
		<category><![CDATA[人工智能]]></category>
		<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[李维]]></category>
		<category><![CDATA[计算语言学]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3078</guid>
		<description><![CDATA[　　不小心撞上了科学网上李维老师的博客，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《机器学习和自然语言处理》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《朝华午拾：在美国写基金申请的酸甜苦辣》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。 　　　　　　　　《立委随笔：机器学习和自然语言处理》 　　　　　　　　　　　　　　作者：李维 有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。 AI, ML and NLP NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时： 机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。 考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。 …… 总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。 摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361 AI &#8230; <a href="http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　不小心撞上了科学网上李维老师的<a href="http://www.sciencetimes.com.cn/u/liwei999/"target=_blank>博客</a>，读了他个人履历和几篇文章，只能用“敬佩”二字对李维老师表示敬意。作为年后开工的第一篇博文，本无转载计划的，但是这里还是选用李维老师的随笔《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=294037"target=_blank>机器学习和自然语言处理</a>》，这是一位计算语言学学者和自然语言处理实践者多年来的经验之谈，没有相当的积累，纸上是谈不来的。不过，更推荐有兴趣的读者读读《<a href="http://www.sciencetimes.com.cn/m/user_content.aspx?id=295797"target=_blank>朝华午拾：在美国写基金申请的酸甜苦辣</a>》，虽然很长，我还是一气呵成读完的，除了佩服李维老师的行文能力外，也能看到成功背后的付出和汗水是多么的巨大。<span id="more-3078"></span></p>
<p>　　　　　　　　<strong>《立委随笔：机器学习和自然语言处理》</strong><br />
　　　　　　　　　　　　　　作者：李维</p>
<p>有脚客介绍人工智能（AI）现状 ( http://rl.rockiestech.com/node/636 )，认为由于机器学习（ML）技术的长足进步，人工智能正进入繁荣期，并且开始成功用于自然语言处理（NLP). 除了调子过分乐观了一些，这是个不错的介绍。下面的随笔是根据我自己的经验和体会而来。</p>
<p>AI, ML and NLP</p>
<p>NLP 中过分强调 AI 曾经是斜途，其实现在我认为也还是斜途, 我很久以前就有过这个看法，现在觉得并没过时：</p>
<blockquote><p>
机器翻译的另一极是建立在充分理解基础上, 毋须转换的自动翻译, 这是从实质上对人的翻译过程的模拟。这时候, 源语分析才是真正的自然语言理解, 机器翻译才真正属于人工智能。然而, 这里遇到两个难题: 一是知识处理问题; 二是所谓元语言问题。</p>
<p>考察人的翻译活动, 可以发现, 人是靠丰富的知识在理解的基础上从事翻译的。这些知识既包括语言知识, 也包括世界知识(常识、专业知识等)。如何组织这些包罗万象的百科全书一样的知识, 以便适应机器处理和运用的需要, 是人工智能所面临的根本性课题。<br />
……</p>
<p>总之, 虽然机器翻译的最终出路在于人工智能的理论和技术的突破, 但在条件不成熟的时候过份强调机器翻译的人工智能性质, 一味追求基于知识和理解的自动翻译,对于应用型机器翻译系统的研制, 往往没有益处。<br />
摘自【立委科普：机器翻译】: http://www.starlakeporch.net/bbs/read.php?45,18361</p></blockquote>
<p>AI 里面调子最高的一派是 Doug Lenat，他的 cyc 项目进行了多年，获得了政府和许多 high profile sponsors 的多年资助，一直无法实用，尽管他自己10年前就宣扬已经接近应用前夜了。对于 Doug Lenat，我打心底钦佩，这种基于常识推理的 AI 需要苦功夫，是对人的智能（一个侧面）的逼真模拟。</p>
<p>多数学者对此不以为然，对这种 “纯粹AI” 不看好，大家大都转向以统计为基础的机器学习（ML）。基本上是把人的智能看成黑箱，不再试图从本质上模拟人脑的过程，包括逻辑推理，而是把每一个具体的智能活动定义为一个任务，一个从输入转换成所求的输出的任务，而这是可以客观度量的。只要机器能够训练成尽可能逼近所需的输出，人的智能就局部实现了。</p>
<p>ML 和 NLP</p>
<p>如今，NLP（包括机器翻译MT）也基本上已经被搞机器学习的人统治了，传统的规则方法只能打边鼓。他们也确实弄出一些名堂来，尤其是语音处理，分类(classification)，和知识习得(knowledge acquisition) 方面。</p>
<p>目前的情况是，有指导的学习（supervised learning） 比较成熟，但遭遇知识瓶颈，就是需要大数据量的 labeled data 的问题。如果问题单纯，features 选取容易，又有海量数据，学习的结果真地可以很接近人工水平。我们曾经做过一项研究（碰巧的是，IBM 也大体同时做了这项研究，不如我们深入，但大同小异，结果也类似），找到了一个很好的应用领域做大小写恢复工作（Case Restoration），效果奇好。过去很多档案文字的电子版本是全大写的，网络上现在还有很多文件也是不分大小写的（譬如很多语音识别出来的材料，标题，还有论坛和电子邮件的非正式文字，等等），这就给自然语言处理和信息抽取造成困难，因为多数语言处理系统 assume 的 input 是正常大小写夹杂的文字，一旦输入文件没有大小写的区别，一切就乱套了。连最基础的词类区分（POS: Part-of-Speech tagging）和专名识别（NE: named entity tagging）都寸步难行（因为最重要的一个识别专名边界的clue就是大写）。为了解决这个问题，以前的研究者就设计两套系统，比如BBN就把大小写的features统统弃置重新训练一套NE系统来对付没有大小写的input, 除了 overhead, 系统性能也下降很多。我们想，如果我们先把大小写恢复，然后再做 NLP 不就成了。这个恢复大小写的任务相对比较单纯，训练文本几乎是无限的，因为网上文字大多是区分大小写的。我们利用这些现成的 “labeled” data, 用最简单的HMM算法，学出了一个高效能的系统，解决了这个问题，结果超出预料地好。（Niu, C., W. Li, J. Ding, and R. Rohini. 2004. Orthographic Case Restoration Using Supervised Learning Without Manual Annotation. International Journal of Artificial Intelligence Tools, Vol. 13, No. 1, 2004.）</p>
<p>不过，这样讨巧的事并不多 (一个类似可以讨巧的是某些classification的任务：比如想训练一个给评语分类的系统，就可以上网找到很多客户回馈的记录，这些记录除了文字外，常常还有星号标识，以1个星号表示很差，5星表示很好)。多数任务会遇到 lebeling data 的瓶颈。统计界的共识之一就是，data, data and data. 很多时候，算法的优劣是其次的，主要还是要足够多的 data 和合适的 feature design.  数据量大了，学习的效果自然就好了。所以，labeled data 是 supervised learning 的真正知识瓶颈。我就见过这样的系统，本来是指望随时重新训练以适应新情况的，结果 data 跟不上，成了一个只训练一次的死系统，任何后续的改进都不是经过增加数据重新训练，而是在系统外部打各种补丁。机器学习的优势就失去了。</p>
<p>无须指导的学习（Unsupervised learning） 因此引起学者的兴趣，成为热点，因为所需的训练材料无须标注。在网络世界，有的是 raw data. 对某个对象进行 clustering 就可以用 unsupervised leaning, 出了很多有意思的结果。Clustering 有别于 classification, 前者没有预定一个目标，而是根据features，只要长得象的就归在一起，后者是有预定的 tag set 作为分类的目标。只要设计者心中有个大致的目标，features 选取得当，可以控制 clustering 的结果的粗细，然后去现实世界或使用者中印证clustering的合理性和含义。反正是 unsupervised learning, 不妨多来几次，选取最好的结果作为方向，这样就可以把 clustering 转化成具有广泛应用的 classification. （在人类智能活动中，分类是最常用的技能，也是应用最广泛，相对单纯，比较易于机器学习和模拟成功的任务。大千世界，林林总总，为了把握它，人类第一个要做的就是分类。分类以后，才好缩小范围，集中到某个子领域，钻进去仔细分析。）</p>
<p>正如自如所述，目前很多研究者对所谓 weakly supervised learning 情有独衷，觉得这是一个具有突破性的研究方向。传统的 supervised learning 有知识瓶颈而为人诟病，完全没有指导的学习效率不高，因此尝试利用有限 labeled data 作为种子（seeds）, 怎样引导学习程序一步一步向指定方向去，这是一个充满魅力的路子。这方面的成果令人鼓舞，但总体还在探索阶段，只有少部分课题已经接近临床实用，譬如分类和词典习得（lexicon acqusition）.</p>
<p>机器学习的缺点和局限等有时间再接着谈。先说一点，任务一复杂，ML 就麻烦。遇到复杂的难以分解的任务，基本是没戏，譬如 自然语言的深度结构分析（deep parsing）。而任务相对单纯的浅层分析（shallow parsing），ML 的效果就很好，可以媲美人工系统。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/立委随笔-机器学习和自然语言处理">http://www.52nlp.cn/立委随笔-机器学习和自然语言处理</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/acl-2010-best-paper-awards' rel='bookmark' title='ACL 2010 Best Paper Awards'>ACL 2010 Best Paper Awards</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/acl09-acceptance-rates-by-areas' rel='bookmark' title='ACL09 Full Paper各研究领域的录用情况'>ACL09 Full Paper各研究领域的录用情况</a></li>
<li><a href='http://www.52nlp.cn/%e6%9d%a1%e4%bb%b6%e9%9a%8f%e6%9c%ba%e5%9c%ba%e6%96%87%e7%8c%ae%e9%98%85%e8%af%bb%e6%8c%87%e5%8d%97' rel='bookmark' title='条件随机场文献阅读指南'>条件随机场文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/acl-hlt-2011-list-of-accepted-short-papers' rel='bookmark' title='ACL-HLT 2011: List of Accepted Short Papers'>ACL-HLT 2011: List of Accepted Short Papers</a></li>
<li><a href='http://www.52nlp.cn/from-google-research-blog-google-at-acl-2011' rel='bookmark' title='From Google Research Blog: Google at ACL 2011'>From Google Research Blog: Google at ACL 2011</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/coling-2010-list-of-accepted-papers-oral' rel='bookmark' title='COLING 2010: List of Accepted Papers (Oral)'>COLING 2010: List of Accepted Papers (Oral)</a></li>
<li><a href='http://www.52nlp.cn/mit-open-course-natural-language-processing-introduce' rel='bookmark' title='MIT开放式课程“自然语言处理”介绍'>MIT开放式课程“自然语言处理”介绍</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e7%ab%8b%e5%a7%94%e9%9a%8f%e7%ac%94-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e5%92%8c%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

