<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：语言模型训练工具SRILM详解</title>
	<atom:link href="http://www.52nlp.cn/language-model-training-tools-srilm-details/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn/language-model-training-tools-srilm-details</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Fri, 30 Jul 2010 00:28:39 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-866</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Tue, 30 Mar 2010 23:40:12 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-866</guid>
		<description>抱歉，找了一下备份没找到，不过这个不应该是版本的问题，即使是，你目前所下载的也应该是更好的版本，试着重新编译一下看看。</description>
		<content:encoded><![CDATA[<p>抱歉，找了一下备份没找到，不过这个不应该是版本的问题，即使是，你目前所下载的也应该是更好的版本，试着重新编译一下看看。</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：michaelym</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-865</link>
		<dc:creator>michaelym</dc:creator>
		<pubDate>Tue, 30 Mar 2010 14:56:13 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-865</guid>
		<description>谢谢回复，那就是说可以直接将一个大语料训练的，不过前提是机器性能足够。
另外我看了IRSTLM的安装，我down下来装就装不上。。可能我们的版本不太一样，方便提供一下你的版本么？</description>
		<content:encoded><![CDATA[<p>谢谢回复，那就是说可以直接将一个大语料训练的，不过前提是机器性能足够。<br />
另外我看了IRSTLM的安装，我down下来装就装不上。。可能我们的版本不太一样，方便提供一下你的版本么？</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-863</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Tue, 30 Mar 2010 12:02:34 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-863</guid>
		<description>我机器比较烂，问了一下师弟，他们去年参加第五届全国机器翻译测试时训练的汉语语言模型用的语料库是“1.8G的搜狗语料+几百M的汉语语料”，所以问题不在于怎么用SRILM训练大于1G的语料库，而是你的机器性能是否足够强。我以前实验室用于训练的机器是8核加12G内存的服务器。
另外，对于大语料库，可以考虑IRSTLM和RandLM。IRSTLM的是考虑拆分合并的，具体请参考：《&lt;a href=&quot;http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting&quot; rel=&quot;nofollow&quot;&gt;语言模型工具IRSTLM安装及试用手记&lt;/a&gt;》</description>
		<content:encoded><![CDATA[<p>我机器比较烂，问了一下师弟，他们去年参加第五届全国机器翻译测试时训练的汉语语言模型用的语料库是“1.8G的搜狗语料+几百M的汉语语料”，所以问题不在于怎么用SRILM训练大于1G的语料库，而是你的机器性能是否足够强。我以前实验室用于训练的机器是8核加12G内存的服务器。<br />
另外，对于大语料库，可以考虑IRSTLM和RandLM。IRSTLM的是考虑拆分合并的，具体请参考：《<a href="http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting" rel="nofollow">语言模型工具IRSTLM安装及试用手记</a>》</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：michael</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-861</link>
		<dc:creator>michael</dc:creator>
		<pubDate>Tue, 30 Mar 2010 04:27:12 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-861</guid>
		<description>请问如何用SRILM在大于1G的语料建立LM，如何拆分文件，能给个具体的例子么，谢谢！</description>
		<content:encoded><![CDATA[<p>请问如何用SRILM在大于1G的语料建立LM，如何拆分文件，能给个具体的例子么，谢谢！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-860</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Mon, 29 Mar 2010 11:07:32 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-860</guid>
		<description>恩，如果要仔细推敲Srilm建议阅读我师兄jianzhu的《&lt;a href=&quot;http://blog.chinaunix.net/u1/58264/index.html&quot;target=_blank rel=&quot;nofollow&quot;&gt;srilm 阅读文档&lt;/a&gt;》，以下选自其文档12：
...
  细解：第17行将句子中的每一个词以逆序方式保存到reversed中，同时
  保存reverse中实际有效的词数（即去除&lt;s&gt;和&lt;/s&gt;后的词数）。然后执
  行第23-78行。
  第23-78行通过循环方式统计句子中的所有 ngram的概率值并将其叠加到
  totalProb中，同时统计句子的状态信息。
  举例：
       &lt;s&gt; 中国 人民 解放军 &lt;/s&gt;
  经过第17行处理后，变为：
       &lt;/s&gt; 解放军 人民 中国 &lt;s&gt;
  同时将len设为3
  因此23-78行的for循环处理ngram的顺序如下所示
       P(中国&#124;&lt;s&gt;)
       P(人民&#124;中国 &lt;s&gt;)
       p(解放军&#124;人民 中国 &lt;s&gt;)
       P(&lt;s&gt;&#124;解放军 人民 中国 &lt;s&gt;)
...</description>
		<content:encoded><![CDATA[<p>恩，如果要仔细推敲Srilm建议阅读我师兄jianzhu的《<a href="http://blog.chinaunix.net/u1/58264/index.html"target=_blank rel="nofollow">srilm 阅读文档</a>》，以下选自其文档12：<br />
&#8230;<br />
  细解：第17行将句子中的每一个词以逆序方式保存到reversed中，同时<br />
  保存reverse中实际有效的词数（即去除&lt;s&gt;和&lt;/s&gt;后的词数）。然后执<br />
  行第23-78行。<br />
  第23-78行通过循环方式统计句子中的所有 ngram的概率值并将其叠加到<br />
  totalProb中，同时统计句子的状态信息。<br />
  举例：<br />
       &lt;s&gt; 中国 人民 解放军 &lt;/s&gt;<br />
  经过第17行处理后，变为：<br />
       &lt;/s&gt; 解放军 人民 中国 &lt;s&gt;<br />
  同时将len设为3<br />
  因此23-78行的for循环处理ngram的顺序如下所示<br />
       P(中国|&lt;s&gt;)<br />
       P(人民|中国 &lt;s&gt;)<br />
       p(解放军|人民 中国 &lt;s&gt;)<br />
       P(&lt;s&gt;|解放军 人民 中国 &lt;s&gt;)<br />
&#8230;</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：Eric</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-857</link>
		<dc:creator>Eric</dc:creator>
		<pubDate>Mon, 29 Mar 2010 02:01:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-857</guid>
		<description>我觉得也是这样的，句首和句尾的标识符都算作一个word的。所以在估计第三个词的概率时是这个三元组 w1 w2；而对于第二个词则退化成了2-gram文法，即 w1;以此类推，第一个词则退化为1-gram。

以上是我的理解。</description>
		<content:encoded><![CDATA[<p>我觉得也是这样的，句首和句尾的标识符都算作一个word的。所以在估计第三个词的概率时是这个三元组 w1 w2；而对于第二个词则退化成了2-gram文法，即 w1;以此类推，第一个词则退化为1-gram。</p>
<p>以上是我的理解。</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-852</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Sat, 27 Mar 2010 04:52:38 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-852</guid>
		<description>恩，欢迎大家多来交流！</description>
		<content:encoded><![CDATA[<p>恩，欢迎大家多来交流！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：wangning</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-851</link>
		<dc:creator>wangning</dc:creator>
		<pubDate>Sat, 27 Mar 2010 03:10:55 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-851</guid>
		<description>同意，多交流才能有更多收获！</description>
		<content:encoded><![CDATA[<p>同意，多交流才能有更多收获！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-850</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Fri, 26 Mar 2010 12:26:54 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-850</guid>
		<description>呵呵，有所为有所不为，欢迎多来52nlp交流！</description>
		<content:encoded><![CDATA[<p>呵呵，有所为有所不为，欢迎多来52nlp交流！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：Yu Yifeng</title>
		<link>http://www.52nlp.cn/language-model-training-tools-srilm-details/comment-page-1#comment-849</link>
		<dc:creator>Yu Yifeng</dc:creator>
		<pubDate>Fri, 26 Mar 2010 02:52:24 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=954#comment-849</guid>
		<description>谢了！统计NLP，要周旋于语言本身的问题、各种统计算法、编程实现细节，每一样细啃起来都是没完没了，一件严重杀伤脑细胞的活啊！因此，交流、讨论意义更大。</description>
		<content:encoded><![CDATA[<p>谢了！统计NLP，要周旋于语言本身的问题、各种统计算法、编程实现细节，每一样细啃起来都是没完没了，一件严重杀伤脑细胞的活啊！因此，交流、讨论意义更大。</p>
]]></content:encoded>
	</item>
</channel>
</rss>
