<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：CWB中文词库试用及其他</title>
	<atom:link href="http://www.52nlp.cn/cwb-trial-and-others/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn/cwb-trial-and-others</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 08 Sep 2010 14:12:04 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
	<item>
		<title>由：52nlp</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-795</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Fri, 05 Mar 2010 11:17:38 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-795</guid>
		<description>谢谢支持，欢迎常来看看！</description>
		<content:encoded><![CDATA[<p>谢谢支持，欢迎常来看看！</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：cherie</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-794</link>
		<dc:creator>cherie</dc:creator>
		<pubDate>Fri, 05 Mar 2010 01:20:51 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-794</guid>
		<description>恩，不错，可以下载来看个究竟。谢谢52nlp。加油，支持你！</description>
		<content:encoded><![CDATA[<p>恩，不错，可以下载来看个究竟。谢谢52nlp。加油，支持你！</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：52nlp</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-793</link>
		<dc:creator>52nlp</dc:creator>
		<pubDate>Thu, 04 Mar 2010 11:10:35 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-793</guid>
		<description>不客气，crf分词我也只是搞了个皮毛，不过建议你可以参考一下日文分词系统mecab：

mecab (http://mecab.sourceforge.net/) 是日本奈良先端科学技术大学院的工藤拓开发的日文分词系统， 该作者写过多个 machine learning 方面的软件包，最有名的就是CRF++， 目前该作者在 google@Japan 工作。

mecab 是基于CRF 的一个日文分词系统，代码使用 c++ 实现， 基本上内嵌了 CRF++ 的代码，同时提供了多种脚本语言调用的接口(python, perl， ruby 等).整个系统的架构采用通用泛化的设计，用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至，如果你有中文的分词语料作为训练语料，可以在该架构下按照其配置文件的规范定制一个中文的分词系统。 

日文NLP 界有几个有名的开源分词系统， Juman, Chasen, Mecab.   Juman 和 Chasen 都是比较老的系统了， Mecab 系统比较新， 在很多方面都优于 Juman 和 Chasen, mecab目前开发也比较活跃。 Mecab 虽然使用 CRF 实现， 但是解析效率上却相当高效， 据作者的介绍， Mecab 比基于 HMM 的 Chasen 的解析速度要快。笔者在一台 Linux 机器上粗略测试过其速度，将近达到 2MB/s， 完全达到了工程应用的需求， 该系统目前在日文NLP 界被广泛使用。

水木社区自然语言处理版有人将其日文文档翻译为中文文档，可以在这里找到：
http://www.newsmth.net/bbscon.php?bid=1018&amp;id=6417</description>
		<content:encoded><![CDATA[<p>不客气，crf分词我也只是搞了个皮毛，不过建议你可以参考一下日文分词系统mecab：</p>
<p>mecab (<a href="http://mecab.sourceforge.net/" rel="nofollow">http://mecab.sourceforge.net/</a>) 是日本奈良先端科学技术大学院的工藤拓开发的日文分词系统， 该作者写过多个 machine learning 方面的软件包，最有名的就是CRF++， 目前该作者在 google@Japan 工作。</p>
<p>mecab 是基于CRF 的一个日文分词系统，代码使用 c++ 实现， 基本上内嵌了 CRF++ 的代码，同时提供了多种脚本语言调用的接口(python, perl， ruby 等).整个系统的架构采用通用泛化的设计，用户可以通过配置文件定制CRF训练中需要使用的特征模板。 甚至，如果你有中文的分词语料作为训练语料，可以在该架构下按照其配置文件的规范定制一个中文的分词系统。 </p>
<p>日文NLP 界有几个有名的开源分词系统， Juman, Chasen, Mecab.   Juman 和 Chasen 都是比较老的系统了， Mecab 系统比较新， 在很多方面都优于 Juman 和 Chasen, mecab目前开发也比较活跃。 Mecab 虽然使用 CRF 实现， 但是解析效率上却相当高效， 据作者的介绍， Mecab 比基于 HMM 的 Chasen 的解析速度要快。笔者在一台 Linux 机器上粗略测试过其速度，将近达到 2MB/s， 完全达到了工程应用的需求， 该系统目前在日文NLP 界被广泛使用。</p>
<p>水木社区自然语言处理版有人将其日文文档翻译为中文文档，可以在这里找到：<br />
<a href="http://www.newsmth.net/bbscon.php?bid=1018&#038;id=6417" rel="nofollow">http://www.newsmth.net/bbscon.php?bid=1018&#038;id=6417</a></p>
]]></content:encoded>
	</item>
	<item>
		<title>由：cherie</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-792</link>
		<dc:creator>cherie</dc:creator>
		<pubDate>Thu, 04 Mar 2010 03:00:31 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-792</guid>
		<description>一直在关注52nlp，学习到了不少，很是感谢。最近在作基于crf的中文分词，发觉crf可配置性比较差，正在寻找方法中。</description>
		<content:encoded><![CDATA[<p>一直在关注52nlp，学习到了不少，很是感谢。最近在作基于crf的中文分词，发觉crf可配置性比较差，正在寻找方法中。</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：admin</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-499</link>
		<dc:creator>admin</dc:creator>
		<pubDate>Sun, 25 Oct 2009 03:40:08 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-499</guid>
		<description>同佩服；同欢迎!</description>
		<content:encoded><![CDATA[<p>同佩服；同欢迎!</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：Harry</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-498</link>
		<dc:creator>Harry</dc:creator>
		<pubDate>Sun, 25 Oct 2009 01:42:55 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-498</guid>
		<description>佩服，这个领域确实非常难，需要极大的毅力</description>
		<content:encoded><![CDATA[<p>佩服，这个领域确实非常难，需要极大的毅力</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：admin</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-219</link>
		<dc:creator>admin</dc:creator>
		<pubDate>Fri, 22 May 2009 06:52:46 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-219</guid>
		<description>呵呵，欢迎常来！</description>
		<content:encoded><![CDATA[<p>呵呵，欢迎常来！</p>
]]></content:encoded>
	</item>
	<item>
		<title>由：huangyun</title>
		<link>http://www.52nlp.cn/cwb-trial-and-others/comment-page-1#comment-218</link>
		<dc:creator>huangyun</dc:creator>
		<pubDate>Fri, 22 May 2009 06:16:34 +0000</pubDate>
		<guid isPermaLink="false">http://www.52nlp.cn/?p=1604#comment-218</guid>
		<description>呵呵，都很关注你的帖子，只是没有留言，以后会随时关注的</description>
		<content:encoded><![CDATA[<p>呵呵，都很关注你的帖子，只是没有留言，以后会随时关注的</p>
]]></content:encoded>
	</item>
</channel>
</rss>
