<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：统计机器翻译文献阅读指南</title>
	<atom:link href="http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Fri, 30 Jul 2010 00:28:39 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-1028</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Wed, 21 Apr 2010 23:34:46 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-1028</guid>
		<description>如果仅仅是词级别的话Giza++ + mkcls就够了。</description>
		<content:encoded><![CDATA[<p>如果仅仅是词级别的话Giza++ + mkcls就够了。</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：ppsly</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-1025</link>
		<dc:creator>ppsly</dc:creator>
		<pubDate>Wed, 21 Apr 2010 16:05:00 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-1025</guid>
		<description>感谢您的回复
发现我需要的只是P(f&#124;e)，f是目标语言的单词（如英文单词），e是源语言的单词（如中文），那么我是不是只要做到翻译模型这一步就好了？看了下貌似“CMU-Cam Language Model Toolkit” + GIZA++ +  mkcls + 分词工具就可以做到了吧？所以目前估计也不用Moses这样一个完整的系统；

52nlp怎么看的？ 麻烦了</description>
		<content:encoded><![CDATA[<p>感谢您的回复<br />
发现我需要的只是P(f|e)，f是目标语言的单词（如英文单词），e是源语言的单词（如中文），那么我是不是只要做到翻译模型这一步就好了？看了下貌似“CMU-Cam Language Model Toolkit” + GIZA++ +  mkcls + 分词工具就可以做到了吧？所以目前估计也不用Moses这样一个完整的系统；</p>
<p>52nlp怎么看的？ 麻烦了</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：52nlp</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-1021</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Wed, 21 Apr 2010 14:36:45 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-1021</guid>
		<description>抱歉，今天比较忙，这么晚才给你答复。

可以考虑这个Moses+python绑定的工具：
http://veer66.wordpress.com/2008/12/27/simple-dirty-python-binding-for-moses-smt-decoder/
我没有试过，不过你可以仔细研究一下他是如何利用Python调用Moses的。

其次，可以考虑纯Java写的层次短语模型解码器Joshua，由约翰霍普金斯大学开发：http://joshua.sourceforge.net/Joshua/Welcome.html
这个系统目前已被ACL 2010的统计机器翻译workshop列为与Moses并列的baseline系统2，很有前景：
http://www.statmt.org/wmt10/</description>
		<content:encoded><![CDATA[<p>抱歉，今天比较忙，这么晚才给你答复。</p>
<p>可以考虑这个Moses+python绑定的工具：<br />
<a href="http://veer66.wordpress.com/2008/12/27/simple-dirty-python-binding-for-moses-smt-decoder/" rel="nofollow">http://veer66.wordpress.com/2008/12/27/simple-dirty-python-binding-for-moses-smt-decoder/</a><br />
我没有试过，不过你可以仔细研究一下他是如何利用Python调用Moses的。</p>
<p>其次，可以考虑纯Java写的层次短语模型解码器Joshua，由约翰霍普金斯大学开发：http://joshua.sourceforge.net/Joshua/Welcome.html<br />
这个系统目前已被ACL 2010的统计机器翻译workshop列为与Moses并列的baseline系统2，很有前景：<br />
<a href="http://www.statmt.org/wmt10/" rel="nofollow">http://www.statmt.org/wmt10/</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：ppsly</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-1016</link>
		<dc:creator>ppsly</dc:creator>
		<pubDate>Tue, 20 Apr 2010 17:55:01 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-1016</guid>
		<description>你好，有个问题想请教：
我目前想做一个QA系统，参考了一些论文，决定用Translation Language Model来查找相似问题，目前遇到的是选择工具的问题。查看了您的博客，发现介绍的基本上就是Moses了，但是它是用C/C++和Perl做的，我相对不熟（Perl没用过），如果能转移到Java和Python组合就最好了。

不知道52nlp对这个课题和工具选择方面有何建议？

打搅了，由于接触这个领域不久，问题可能有些基础，期待您的回复，十分感谢！</description>
		<content:encoded><![CDATA[<p>你好，有个问题想请教：<br />
我目前想做一个QA系统，参考了一些论文，决定用Translation Language Model来查找相似问题，目前遇到的是选择工具的问题。查看了您的博客，发现介绍的基本上就是Moses了，但是它是用C/C++和Perl做的，我相对不熟（Perl没用过），如果能转移到Java和Python组合就最好了。</p>
<p>不知道52nlp对这个课题和工具选择方面有何建议？</p>
<p>打搅了，由于接触这个领域不久，问题可能有些基础，期待您的回复，十分感谢！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：admin</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-514</link>
		<dc:creator>admin</dc:creator>
		<pubDate>Wed, 04 Nov 2009 23:07:26 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-514</guid>
		<description>非常感谢！</description>
		<content:encoded><![CDATA[<p>非常感谢！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：Mars</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-512</link>
		<dc:creator>Mars</dc:creator>
		<pubDate>Wed, 04 Nov 2009 17:20:34 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-512</guid>
		<description>最近三周读的论文是：

What&#039;s in a Translation Rule?
后来称为GHKM模型（作者名字首字母），好像是第一篇谈到抽取tree-&gt;string的规则的论文。有一点搞的是，这类系统的命名有点混乱。其实source language是string，target language是tree，但是因为训练的时候，规则是从tree-&gt;string的，然后在decoding的时候再“反”过来。所以以后提到tree-&gt;string，还是string-&gt;tree（tree-&gt;tree没问题）的时候一定要注意到底讲的是从source-&gt;target还是指规则。

Scalable Inference and Training of Context-Rich Syntactic Translation Modesl. Galley et al., 2006. ACL-06.
扩展了之前的工作，在阿拉伯语到英文和中文到英文上跟GHKM模型比提高了3.63个BLEU score.但是跟基于短语的模型还是相差6个BLEU score。好像后续的论文他们有改进language model，从而又有所提升。

Phrasal cohesion and statistical machine translation. Fox, 2002.
下个星期读。</description>
		<content:encoded><![CDATA[<p>最近三周读的论文是：</p>
<p>What&#8217;s in a Translation Rule?<br />
后来称为GHKM模型（作者名字首字母），好像是第一篇谈到抽取tree-&gt;string的规则的论文。有一点搞的是，这类系统的命名有点混乱。其实source language是string，target language是tree，但是因为训练的时候，规则是从tree-&gt;string的，然后在decoding的时候再“反”过来。所以以后提到tree-&gt;string，还是string-&gt;tree（tree-&gt;tree没问题）的时候一定要注意到底讲的是从source-&gt;target还是指规则。</p>
<p>Scalable Inference and Training of Context-Rich Syntactic Translation Modesl. Galley et al., 2006. ACL-06.<br />
扩展了之前的工作，在阿拉伯语到英文和中文到英文上跟GHKM模型比提高了3.63个BLEU score.但是跟基于短语的模型还是相差6个BLEU score。好像后续的论文他们有改进language model，从而又有所提升。</p>
<p>Phrasal cohesion and statistical machine translation. Fox, 2002.<br />
下个星期读。</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：admin</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-496</link>
		<dc:creator>admin</dc:creator>
		<pubDate>Fri, 23 Oct 2009 05:50:59 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-496</guid>
		<description>欢迎有空在这里分享一下心得，呵呵！</description>
		<content:encoded><![CDATA[<p>欢迎有空在这里分享一下心得，呵呵！</p>
]]></content:encoded>
	</item>
	<item>
		<title>来自：Mars</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-tutorial-reading/comment-page-1#comment-495</link>
		<dc:creator>Mars</dc:creator>
		<pubDate>Fri, 23 Oct 2009 03:23:09 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=2386#comment-495</guid>
		<description>呵呵，我正好参加一个MT的reading group，下个星期开始syntax-based MT，就是从What’s in a Translation Rule? 开始。</description>
		<content:encoded><![CDATA[<p>呵呵，我正好参加一个MT的reading group，下个星期开始syntax-based MT，就是从What’s in a Translation Rule? 开始。</p>
]]></content:encoded>
	</item>
</channel>
</rss>
