<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>《MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）》的评论</title>
	<atom:link href="http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Sun, 05 Feb 2012 11:54:59 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-3104</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Sat, 26 Nov 2011 02:04:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-3104</guid>
		<description>实际上处理时也基本上是统计特征出现的次数的，最终的p(y&#124;x)也是根据每个特征的学习的权重计算出来的。</description>
		<content:encoded><![CDATA[<p>实际上处理时也基本上是统计特征出现的次数的，最终的p(y|x)也是根据每个特征的学习的权重计算出来的。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：captn</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-3025</link>
		<dc:creator>captn</dc:creator>
		<pubDate>Fri, 18 Nov 2011 08:28:15 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-3025</guid>
		<description>hi :-)
 我觉得@sknow的第一个问题解答应该是这样的：
对于每个x(history),y(tag ),
f(x,y)=0111010其实代表了一个二元序列，代表x,y在第i个特征取得是0还是1
真正计算数目的应该不是特征i的出现的数目，而是(x,y)在语料库中出现的次数，因为目的不是求特定特征i的概率，而是求p(x,y)或者p(y&#124;x)，然后利用根据统计数目求出的p(x,y)用来计算Ef1，然后把这个Ef1作为约束</description>
		<content:encoded><![CDATA[<p>hi <img src='http://www.52nlp.cn/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /><br />
 我觉得@sknow的第一个问题解答应该是这样的：<br />
对于每个x(history),y(tag ),<br />
f(x,y)=0111010其实代表了一个二元序列，代表x,y在第i个特征取得是0还是1<br />
真正计算数目的应该不是特征i的出现的数目，而是(x,y)在语料库中出现的次数，因为目的不是求特定特征i的概率，而是求p(x,y)或者p(y|x)，然后利用根据统计数目求出的p(x,y)用来计算Ef1，然后把这个Ef1作为约束</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：sknow</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-809</link>
		<dc:creator>sknow</dc:creator>
		<pubDate>Mon, 15 Mar 2010 03:26:24 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-809</guid>
		<description>哦，好的，谢谢师兄啊！</description>
		<content:encoded><![CDATA[<p>哦，好的，谢谢师兄啊！</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-808</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Sun, 14 Mar 2010 10:42:47 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-808</guid>
		<description>举个简单的例子：我们有一个训练语料库，包含的全是词性，其中名词（特征f1)出现了40次，动词(特征f2)出现了30次，形容词(特征f3)出现了30次。对于特征f1:其在语料库中的观察次数是40次，而总得训练样本的次数是30+30+40=100次，其观察概率是40/100，这个就是特征的观察样本期望值：
Epf1 = 40/100 * 1 + 60/100 * 0 = 40/100。 
而“事实”也指的是其观察概率，通俗的说就是训练语料库告诉我们名词出现的可能性约为2/5，略微大一些。</description>
		<content:encoded><![CDATA[<p>举个简单的例子：我们有一个训练语料库，包含的全是词性，其中名词（特征f1)出现了40次，动词(特征f2)出现了30次，形容词(特征f3)出现了30次。对于特征f1:其在语料库中的观察次数是40次，而总得训练样本的次数是30+30+40=100次，其观察概率是40/100，这个就是特征的观察样本期望值：<br />
Epf1 = 40/100 * 1 + 60/100 * 0 = 40/100。<br />
而“事实”也指的是其观察概率，通俗的说就是训练语料库告诉我们名词出现的可能性约为2/5，略微大一些。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：sknow</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-805</link>
		<dc:creator>sknow</dc:creator>
		<pubDate>Sat, 13 Mar 2010 13:30:29 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-805</guid>
		<description>哦，谢谢师兄啊，呵呵，关于第二个我还是不太明白，也看过Berger 那篇文献对应的部分，我的问题是，对于计算期望的那个公式，不太清楚它计算的是什么东西，这个东西的物理意义是什么。如果有期望的话，那它应该是一个随机变量，那这个随机变量代表的是什么呢？师兄所说的“事实”是指什么呢？</description>
		<content:encoded><![CDATA[<p>哦，谢谢师兄啊，呵呵，关于第二个我还是不太明白，也看过Berger 那篇文献对应的部分，我的问题是，对于计算期望的那个公式，不太清楚它计算的是什么东西，这个东西的物理意义是什么。如果有期望的话，那它应该是一个随机变量，那这个随机变量代表的是什么呢？师兄所说的“事实”是指什么呢？</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-803</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Fri, 12 Mar 2010 15:12:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-803</guid>
		<description>对于第一个问题，我有点不太明白你的意思，不知道下面的解释是否正确：
特征向量的映射事实上是一个计数的过程，如果在语料库的上下文中找到了相关的特征，就计数一次，最后累加，得到这个特征的总次数，有了这个总次数，就可以计算每个特征的条件概率了。
第二个问题：
观察样本的期望值代表的是训练语料库中的“事实”，而特征模型期望值代表的是理论上的估计，令其相等也就是我们要“承认已知事实”。

另外关于最大熵模型，这个翻译系列来自于PPT，比较简单，很多问题和背景知识没有解释清楚，建议你读读《最大熵模型文献阅读指南》中的经典文献：
http://www.52nlp.cn/maximum-entropy-model-tutorial-reading</description>
		<content:encoded><![CDATA[<p>对于第一个问题，我有点不太明白你的意思，不知道下面的解释是否正确：<br />
特征向量的映射事实上是一个计数的过程，如果在语料库的上下文中找到了相关的特征，就计数一次，最后累加，得到这个特征的总次数，有了这个总次数，就可以计算每个特征的条件概率了。<br />
第二个问题：<br />
观察样本的期望值代表的是训练语料库中的“事实”，而特征模型期望值代表的是理论上的估计，令其相等也就是我们要“承认已知事实”。</p>
<p>另外关于最大熵模型，这个翻译系列来自于PPT，比较简单，很多问题和背景知识没有解释清楚，建议你读读《最大熵模型文献阅读指南》中的经典文献：<br />
<a href="http://www.52nlp.cn/maximum-entropy-model-tutorial-reading" rel="nofollow">http://www.52nlp.cn/maximum-entropy-model-tutorial-reading</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：sknow</title>
		<link>http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part/comment-page-1#comment-801</link>
		<dc:creator>sknow</dc:creator>
		<pubDate>Fri, 12 Mar 2010 14:34:46 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1475#comment-801</guid>
		<description>师兄，你好，我刚开始学习最大熵，有两个地方不是很懂，呵呵，在这请教一下师兄啊！
1. 上面的那个特征向量是怎么映射出来呀？
2. 第三部分中的那个-特征的观察样本期望值-代表什么意思啊？
谢谢师兄啦!</description>
		<content:encoded><![CDATA[<p>师兄，你好，我刚开始学习最大熵，有两个地方不是很懂，呵呵，在这请教一下师兄啊！<br />
1. 上面的那个特征向量是怎么映射出来呀？<br />
2. 第三部分中的那个-特征的观察样本期望值-代表什么意思啊？<br />
谢谢师兄啦!</p>
]]></content:encoded>
	</item>
</channel>
</rss>

