<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>《Moses中模型训练的并行化问题》的评论</title>
	<atom:link href="http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Sun, 05 Feb 2012 11:54:59 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<item>
		<title>作者：Thought this was cool: 突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了 &#171; CWYAlpha</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-3430</link>
		<dc:creator>Thought this was cool: 突然有一种紧迫感：再不上中文NLP，可能就错过时代机遇了 &#171; CWYAlpha</dc:creator>
		<pubDate>Sun, 11 Dec 2011 04:39:16 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-3430</guid>
		<description>[...] Moses中模型训练的并行化问题 [...]</description>
		<content:encoded><![CDATA[<p>[...] Moses中模型训练的并行化问题 [...]</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1045</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Sat, 24 Apr 2010 15:38:23 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1045</guid>
		<description>不客气，我看了你的记录，写得挺好的。</description>
		<content:encoded><![CDATA[<p>不客气，我看了你的记录，写得挺好的。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Fanlc</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1043</link>
		<dc:creator>Fanlc</dc:creator>
		<pubDate>Sat, 24 Apr 2010 08:46:25 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1043</guid>
		<description>谢谢。终于搭建好了一个模型，对中英文进行了翻译，效果还不错，呵呵</description>
		<content:encoded><![CDATA[<p>谢谢。终于搭建好了一个模型，对中英文进行了翻译，效果还不错，呵呵</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1022</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Wed, 21 Apr 2010 14:47:47 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1022</guid>
		<description>token是Tokenization的意思，本意是对英文进行词串识别，目的是将字符串转换成词串进而降低信息的不确定性，例如将it&#039;s转换为it is。Moses脚本中的token脚本是针对西文字符的，因此对于中文基本不起作用。对等到中文，可以看做是我们的“中文分词”，这个基本上是我们自己处理中文上的第一步。可以参考一下我早起翻译的一篇MIT自然语言处理的文章，稍微生涩一点：
http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part</description>
		<content:encoded><![CDATA[<p>token是Tokenization的意思，本意是对英文进行词串识别，目的是将字符串转换成词串进而降低信息的不确定性，例如将it&#8217;s转换为it is。Moses脚本中的token脚本是针对西文字符的，因此对于中文基本不起作用。对等到中文，可以看做是我们的“中文分词”，这个基本上是我们自己处理中文上的第一步。可以参考一下我早起翻译的一篇MIT自然语言处理的文章，稍微生涩一点：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part" rel="nofollow">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Fanlc</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1018</link>
		<dc:creator>Fanlc</dc:creator>
		<pubDate>Wed, 21 Apr 2010 02:32:37 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1018</guid>
		<description>您好，请教一下。每次准备数据的第一步骤都是进行token，这个步骤到底有什么用呢？我对比结果没发现进行了操作，除了字体有些改变。还有就是这一步骤用中文描述应该怎么说呢？谢谢</description>
		<content:encoded><![CDATA[<p>您好，请教一下。每次准备数据的第一步骤都是进行token，这个步骤到底有什么用呢？我对比结果没发现进行了操作，除了字体有些改变。还有就是这一步骤用中文描述应该怎么说呢？谢谢</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1012</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Tue, 20 Apr 2010 12:25:39 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1012</guid>
		<description>这个问题我不太清楚，但是感觉和文本本身的问题比较相关。Giza++对文本格式的要求比较高，最好在预处理时把一些不必要的符号过滤掉。</description>
		<content:encoded><![CDATA[<p>这个问题我不太清楚，但是感觉和文本本身的问题比较相关。Giza++对文本格式的要求比较高，最好在预处理时把一些不必要的符号过滤掉。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：hyxsunshine</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-1008</link>
		<dc:creator>hyxsunshine</dc:creator>
		<pubDate>Tue, 20 Apr 2010 09:58:28 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-1008</guid>
		<description>您好！
您提供的这一种方法正是我现在正在使用的，但是我的两个词典中有一个在加入之后使GIZA在进行HMM训练时出现了“段错误”，这两个词典的格式是一样的，但是在出现了错误的词典进行IBM模型训练时出现“Error：No Word Index for &quot;通配符&quot;”，不知道您知不知道是什么导致的错误呢？应该是文本本身的问题吧。</description>
		<content:encoded><![CDATA[<p>您好！<br />
您提供的这一种方法正是我现在正在使用的，但是我的两个词典中有一个在加入之后使GIZA在进行HMM训练时出现了“段错误”，这两个词典的格式是一样的，但是在出现了错误的词典进行IBM模型训练时出现“Error：No Word Index for “通配符””，不知道您知不知道是什么导致的错误呢？应该是文本本身的问题吧。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-992</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Mon, 19 Apr 2010 13:28:10 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-992</guid>
		<description>不好意思，有些问题我不太清楚，只能按个人的理解回答。
我曾经利用过双语词典，不过是采用最简单的一种方法：就是直接将双语词典视为双语对齐的语料加入到已有的训练语料中，没有专门利用Giza++中的词典接口，所以不太清楚，不过你可以靠考虑这种方法对训练语料库进行补充并利用双语词典。
在我利用词典时，是与训练语料同等对待的，因此采用相同的预处理过程，包括分词。
关于如何将训练出来的词典运用到测试语料，我也不太清楚，不过如果你采用了前面的方法，就基本上算是利用上词典了。</description>
		<content:encoded><![CDATA[<p>不好意思，有些问题我不太清楚，只能按个人的理解回答。<br />
我曾经利用过双语词典，不过是采用最简单的一种方法：就是直接将双语词典视为双语对齐的语料加入到已有的训练语料中，没有专门利用Giza++中的词典接口，所以不太清楚，不过你可以靠考虑这种方法对训练语料库进行补充并利用双语词典。<br />
在我利用词典时，是与训练语料同等对待的，因此采用相同的预处理过程，包括分词。<br />
关于如何将训练出来的词典运用到测试语料，我也不太清楚，不过如果你采用了前面的方法，就基本上算是利用上词典了。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：hyxsunshine</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-986</link>
		<dc:creator>hyxsunshine</dc:creator>
		<pubDate>Mon, 19 Apr 2010 10:59:50 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-986</guid>
		<description>您好，很感谢您的回复！
GIZA++的README文件里只有一个大概的词典格式的介绍，没有找到更为具体的信息。
在处理的第一步确实生成了.vcb文件，那么对于词典上有而训练语料里没有出现的词我们是不是就必须舍弃了呢？因为这样的话，在.vcb里面是没有id的。
而且，一般我们词典的颗粒度都会比分词过的训练语料的颗粒度大，这个问题该怎么处理呢？是不是我们的词典也要进行分词，然后进行对应？比如：“最\好\的 best”分开对应还是直接舍去呢？
另外，还想请教一下，怎么把训练出来的词典运用到测试语料呢？比如：训练出来的文件是：chinese.vcb english.vcb english_chinese.snt 词典是dictionary.txt 而我们的测试语料是ch.txt en.txt那么我们的命令该怎样给出呢？
再次感谢您的回复！</description>
		<content:encoded><![CDATA[<p>您好，很感谢您的回复！<br />
GIZA++的README文件里只有一个大概的词典格式的介绍，没有找到更为具体的信息。<br />
在处理的第一步确实生成了.vcb文件，那么对于词典上有而训练语料里没有出现的词我们是不是就必须舍弃了呢？因为这样的话，在.vcb里面是没有id的。<br />
而且，一般我们词典的颗粒度都会比分词过的训练语料的颗粒度大，这个问题该怎么处理呢？是不是我们的词典也要进行分词，然后进行对应？比如：“最\好\的 best”分开对应还是直接舍去呢？<br />
另外，还想请教一下，怎么把训练出来的词典运用到测试语料呢？比如：训练出来的文件是：chinese.vcb english.vcb english_chinese.snt 词典是dictionary.txt 而我们的测试语料是ch.txt en.txt那么我们的命令该怎样给出呢？<br />
再次感谢您的回复！</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：52nlp</title>
		<link>http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training/comment-page-1#comment-979</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Sun, 18 Apr 2010 14:48:35 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=809#comment-979</guid>
		<description>首先需要说明的是http://www.52nlp.com/tag/dictionary/下的文章不是我和别人的讨论，而是我摘录Moses邮件列表里的一些相关问题。
关于文件格式，在windows下，可以利用notepad++等文本编辑器查看文件格式并进行相互转化；在linux下，可以利用enca命令来查看，这个网页下有更具体的说明：http://www.ej38.com/showinfo/linux-132533.html
关于在Giza++里添加词典，我个人没有专门研究过，所以不太清楚，最好读一下Giza++的说明文档。
将“一个目标语言的词对应于一个源语言的词”的词典转化为对应的id的事情Giza++就可以做得，你只需要按它的要求做成相应的训练格式，Giza++训练完毕后会产生很多文件，其中就包括词语的id，事实上，它的第一步就是先生成词语的id，而后就只根据id作处理了。</description>
		<content:encoded><![CDATA[<p>首先需要说明的是http://www.52nlp.com/tag/dictionary/下的文章不是我和别人的讨论，而是我摘录Moses邮件列表里的一些相关问题。<br />
关于文件格式，在windows下，可以利用notepad++等文本编辑器查看文件格式并进行相互转化；在linux下，可以利用enca命令来查看，这个网页下有更具体的说明：http://www.ej38.com/showinfo/linux-132533.html<br />
关于在Giza++里添加词典，我个人没有专门研究过，所以不太清楚，最好读一下Giza++的说明文档。<br />
将“一个目标语言的词对应于一个源语言的词”的词典转化为对应的id的事情Giza++就可以做得，你只需要按它的要求做成相应的训练格式，Giza++训练完毕后会产生很多文件，其中就包括词语的id，事实上，它的第一步就是先生成词语的id，而后就只根据id作处理了。</p>
]]></content:encoded>
	</item>
</channel>
</rss>

