<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 语料库</title>
	<atom:link href="http://www.52nlp.cn/category/corpus/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 01 Feb 2012 01:50:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>NLP资源共享盛宴</title>
		<link>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4</link>
		<comments>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4#comments</comments>
		<pubDate>Thu, 12 Jan 2012 11:39:50 +0000</pubDate>
		<dc:creator>finallyliuyu</dc:creator>
				<category><![CDATA[语料库]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=4226</guid>
		<description><![CDATA[“科技创新，方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召，中科院自动化所“自动化学科创新思想与科学方法研究（课题编号：2009IM020300）”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作，将自动化学科数字化知服务网络平台的部分后台数据，以及项目中的一些其他数据资源，免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是：http://www.datatang.com/member/5878。如您论文或项目使用该专区数据，请注明数据来自“自动化学科创新思想与科学方法研究”课题，编号2009IM020300，以及数据堂数据地址http://www.datatang.com/member/5878。 该专区主要包括以下几部分资源： 1.面向计算机学科内学术共同体相关研究的中文DBLP资源 2.面向人物同名消歧研究的的中文DBLP资源 3.万篇随机抽取论文中文DBLP资源 4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源 5.面向文本分类研究的中英文新闻分类语料 6.文本分类程序（含开源代码） 7.面向汉语姓名构词研究的10万中文人名语料库 8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型 9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型 欢迎自动化学科数字化知识服务网络平台：http://autoinnovation.ia.ac.cn 欢迎大家继续关注自动化学科创新方法课题，我们的联系方式 http://weibo.com/autoinnovation， 欢迎大家关注数据堂： http://weibo.com/datatang 祝大家新春快乐，龙年如意！ 相关文章: 欢迎大家试用信息学科数字化知识服务网络平台 52NLP微博-当真李逵遇到假李逵 EuroMatrix与开放精神
相关文章:<ol>
<li><a href='http://www.52nlp.cn/autoinnovation' rel='bookmark' title='欢迎大家试用信息学科数字化知识服务网络平台'>欢迎大家试用信息学科数字化知识服务网络平台</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p align="left">“科技创新，方法先行”。为响应科技部“<a href="http://www.gov.cn/jrzg/2011-07/13/content_1905911.htm">十二五</a>”关于加强科技资源共享的号召，中科院自动化所“自动化学科创新思想与科学方法研究（课题编号：2009IM020300）”课题 与国内专业的科研数据共享平台-<a href="http://www.datatang.com/">数据堂</a> 网站展开全面合作，将<a href="http://autoinnovation.ia.ac.cn/">自动化学科数字化知服务网络平台</a>的部分后台数据，以及项目中的一些其他数据资源，免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是：<a href="http://www.datatang.com/member/5878">http://www.datatang.com/member/5878</a>。如您论文或项目使用该专区数据，请注明数据来自“自动化学科创新思想与科学方法研究”课题，编号2009IM020300，以及数据堂数据地址<a href="http://www.datatang.com/member/5878">http://www.datatang.com/member/5878</a>。</p>
<p align="left">该专区主要包括以下几部分资源：</p>
<p align="left">1.面向计算机学科内学术共同体相关研究的中文DBLP资源</p>
<p align="left">2.面向人物同名消歧研究的的中文DBLP资源</p>
<p align="left">3.万篇随机抽取论文中文DBLP资源</p>
<p align="left">4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源</p>
<p align="left">5.面向文本分类研究的中英文新闻分类语料</p>
<p align="left">6.文本分类程序（含开源代码）</p>
<p align="left">7.面向汉语姓名构词研究的10万中文人名语料库</p>
<p align="left">8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型</p>
<p align="left">9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型</p>
<p align="left">
<p>欢迎自动化学科数字化知识服务网络平台：<a href="http://autoinnovation.ia.ac.cn/">http://autoinnovation.ia.ac.cn</a></p>
<p align="left">欢迎大家继续关注自动化学科创新方法课题，我们的联系方式</p>
<p align="left"><a href="http://weibo.com/autoinnovation">http://weibo.com/autoinnovation</a>，</p>
<p align="left">欢迎大家关注数据堂： <a href="http://weibo.com/datatang">http://weibo.com/datatang</a></p>
<p>祝大家新春快乐，龙年如意！</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/autoinnovation' rel='bookmark' title='欢迎大家试用信息学科数字化知识服务网络平台'>欢迎大家试用信息学科数字化知识服务网络平台</a></li>
<li><a href='http://www.52nlp.cn/52nlp%e5%be%ae%e5%8d%9a-%e5%bd%93%e7%9c%9f%e6%9d%8e%e9%80%b5%e9%81%87%e5%88%b0%e5%81%87%e6%9d%8e%e9%80%b5' rel='bookmark' title='52NLP微博-当真李逵遇到假李逵'>52NLP微博-当真李逵遇到假李逵</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/nlp%e8%b5%84%e6%ba%90%e5%85%b1%e4%ba%ab%e7%9b%9b%e5%ae%b4/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>请求捐赠短信，为短信语料库的创建出一份力</title>
		<link>http://www.52nlp.cn/%e8%af%b7%e6%b1%82%e6%8d%90%e8%b5%a0%e7%9f%ad%e4%bf%a1-%e4%b8%ba%e7%9f%ad%e4%bf%a1%e8%af%ad%e6%96%99%e5%ba%93%e7%9a%84%e5%88%9b%e5%bb%ba%e5%87%ba%e4%b8%80%e4%bb%bd%e5%8a%9b</link>
		<comments>http://www.52nlp.cn/%e8%af%b7%e6%b1%82%e6%8d%90%e8%b5%a0%e7%9f%ad%e4%bf%a1-%e4%b8%ba%e7%9f%ad%e4%bf%a1%e8%af%ad%e6%96%99%e5%ba%93%e7%9a%84%e5%88%9b%e5%bb%ba%e5%87%ba%e4%b8%80%e4%bb%bd%e5%8a%9b#comments</comments>
		<pubDate>Wed, 13 Apr 2011 14:40:30 +0000</pubDate>
		<dc:creator>kite1988</dc:creator>
				<category><![CDATA[语料库]]></category>
		<category><![CDATA[短信]]></category>
		<category><![CDATA[短信语料库]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3910</guid>
		<description><![CDATA[大家好： 我们是来自新加坡国立大学计算机学院的研究人员。我们在6年前收集过英文短信，之后发布了10,000条英文短信的语料库，供研究人员免费使用。 目前我们重新启动了短信收集项目，扩展已有的英文短信，同时还为了创建中文短信库。该项目通过了新加坡国立大学学术委员会的审查。目前我们收集到 15,111条中文短信，语料库已经发布。详情见http://wing.comp.nus.edu.sg:8080/SMSCorpus/。 短信属于隐私数据，收集十分不易。目前在学术领域，公开的短信数据库非常稀少。我们发这个帖子的目的，是让更多的人了解我们的工作，宣传我们的语料库，更重要地是希望你能够帮助语料库的创建。 希望大家能够捐赠一些自己的短信！为短信研究贡献自己的一份力量！捐赠短信的详细方法见项目主页（http://wing.comp.nus.edu.sg:8080/SMSCorpus/）的短信捐赠页面。在存入数据库前，我们会对收集到的短信做相应的处理，保护捐献者的隐私。 感谢大家！ 相关文章: 欧洲议会平行语料库介绍
相关文章:<ol>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>大家好：</p>
<p>我们是来自新加坡国立大学计算机学院的研究人员。我们在6年前收集过英文短信，之后发布了10,000条英文短信的语料库，供研究人员免费使用。</p>
<p>目前我们重新启动了短信收集项目，扩展已有的英文短信，同时还为了创建中文短信库。该项目通过了新加坡国立大学学术委员会的审查。目前我们收集到 15,111条中文短信，语料库已经发布。详情见<a href="http://wing.comp.nus.edu.sg:8080/SMSCorpus/">http://wing.comp.nus.edu.sg:8080/SMSCorpus/</a>。</p>
<p>短信属于隐私数据，收集十分不易。目前在学术领域，公开的短信数据库非常稀少。我们发这个帖子的目的，是让更多的人了解我们的工作，宣传我们的语料库，更重要地是希望你能够帮助语料库的创建。</p>
<p>希望大家能够捐赠一些自己的短信！为短信研究贡献自己的一份力量！捐赠短信的详细方法见项目主页（<a href="http://wing.comp.nus.edu.sg:8080/SMSCorpus/">http://wing.comp.nus.edu.sg:8080/SMSCorpus/</a>）的短信捐赠页面。在存入数据库前，我们会对收集到的短信做相应的处理，保护捐献者的隐私。</p>
<p>感谢大家！</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e8%af%b7%e6%b1%82%e6%8d%90%e8%b5%a0%e7%9f%ad%e4%bf%a1-%e4%b8%ba%e7%9f%ad%e4%bf%a1%e8%af%ad%e6%96%99%e5%ba%93%e7%9a%84%e5%88%9b%e5%bb%ba%e5%87%ba%e4%b8%80%e4%bb%bd%e5%8a%9b/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>公布一批中文文本分类的新闻语料库</title>
		<link>http://www.52nlp.cn/opencorpus</link>
		<comments>http://www.52nlp.cn/opencorpus#comments</comments>
		<pubDate>Sat, 11 Dec 2010 13:05:58 +0000</pubDate>
		<dc:creator>finallyliuyu</dc:creator>
				<category><![CDATA[文本分类]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[新闻语料]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3527</guid>
		<description><![CDATA[提供一批文本分类的新闻语料库，供NLP业余爱好者下载 <a href="http://www.52nlp.cn/opencorpus">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e6%88%91%e7%88%b1%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%a4%e5%91%a8%e5%b2%81' rel='bookmark' title='“我爱自然语言处理”两周岁'>“我爱自然语言处理”两周岁</a></li>
<li><a href='http://www.52nlp.cn/visuwords-installation-and-problem' rel='bookmark' title='Visuwords安装及问题'>Visuwords安装及问题</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>注：博文转载、语料库使用，请注明提供者、来源以及空间提供方。</p>
<p>免责声明：此语料库仅供自然语言处理的业余爱好者研究和交流，禁止用于任何商业用途（包括在资源内部链接广告等行为）。</p>
<p>感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有，任何人未经上述公司允许不得抄袭。</p>
<p>语料库下载地址：<a href="http://download.cnblogs.com/finallyliuyu/corpus.rar">http://download.cnblogs.com/finallyliuyu/corpus.rar</a></p>
<p>语料素材来源： 　    凤凰新闻中心、网易新闻中心、腾讯新闻中心、新浪新闻中心。</p>
<p>语料库整理提供者：  <a href="http://hi.baidu.com/finallyliuyu/home">finallyliuyu</a> </p>
<p>语料库空间提供方： 博客园（无偿提供）</p>
<p>说明：</p>
<p>1、此语料库非职务作品，由本人在业余时间搜集整理，免费提供给对NLP狂热的业余爱好者学习研究使用；本人是自然语言处理的业余爱好者，在类别定义等方面都可能存在一些欠缺，欢迎大家提出宝贵意见和建议；</p>
<p>2、下载地址提供的是MS SQL2000数据库的备份文件。使用此数据库，您需要安装 MS SQL2000 server，然后将corpus.rar解压并还原。压缩包大小为54.8M，共包含39247篇新闻，分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网，IT类的新闻全部来自tech.qq，教育类的新闻来自edu.qq，娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面；</p>
<p>3、需要特别注意的是，有的新闻在开头处有大量空白，因此在查询数据库ArticleText字段中有大片空白的，不是空新闻，是整个新闻体截断显示的缘故。</p>
<p>4、有关语料库的其他情况，请参考<a href="http://www.cnblogs.com/finallyliuyu/archive/2010/09/10/1823676.html"><span style="color: #0000ff">《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》</span></a><span style="color: #0000ff">。</span></p>
<p>我本人在此语料库做过的验证性实验有：《<a href="http://www.cnblogs.com/finallyliuyu/archive/2010/03/12/1684015.html"><span style="color: #0000ff">KL语义距离计算系列》</span></a> <span style="color: #0000ff">，《</span><a href="http://www.cnblogs.com/finallyliuyu/archive/2010/09/02/1816293.html"><span style="color: #0000ff">Kmeans聚类系列</span></a><span style="color: #0000ff">》</span>以及<a href="http://www.cnblogs.com/finallyliuyu/archive/2010/10/04/1842261.html"><span style="color: #0000ff">《文本分类和特征词选择系列》。</span></a></p>
<p>感谢<a href="http://home.cnblogs.com/dudu/">DUDU</a>在博客园无偿帮忙提供空间；也感谢<a href="http://www.cnblogs.com/cmt/">博客园团队</a>。衷心祝愿你们越办越好！</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/%e6%88%91%e7%88%b1%e8%87%aa%e7%84%b6%e8%af%ad%e8%a8%80%e5%a4%84%e7%90%86%e4%b8%a4%e5%91%a8%e5%b2%81' rel='bookmark' title='“我爱自然语言处理”两周岁'>“我爱自然语言处理”两周岁</a></li>
<li><a href='http://www.52nlp.cn/visuwords-installation-and-problem' rel='bookmark' title='Visuwords安装及问题'>Visuwords安装及问题</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/opencorpus/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>微软：Web N-gram Services</title>
		<link>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services</link>
		<comments>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services#comments</comments>
		<pubDate>Wed, 12 May 2010 18:07:12 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[语料库]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Microsoft]]></category>
		<category><![CDATA[n-gram]]></category>
		<category><![CDATA[Web]]></category>
		<category><![CDATA[Web N-gram Services]]></category>
		<category><![CDATA[云存储]]></category>
		<category><![CDATA[微软]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3369</guid>
		<description><![CDATA[　　微软研究院的官方网站上近期发布了一篇文章：“Microsoft Web N-gram Services“，大意是邀请整个社区使用其提供的”Web N-gram services”,这个服务旨在通过基于云的存储平台，推动网络搜索，自然语言处理，语音技术等相关领域，在研究现实世界的大规模网络数据时，利用该服务所提供动态数据对项目中的常规数据进行补充更新，进而有所发现和创新。 　　有意思的是它的副标题：“Access petabytes of data via the Web N-gram services (Public Beta)”，注意微软这个服务提供的是PB(petabytes)级别的数据: 　　1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB 　　如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话，那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。 　　微软的这项”Web N-gram Services”包括如下服务内容： 　　* Content types: Document Body, &#8230; <a href="http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-5' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法5'>HMM学习最佳范例七：前向-后向算法5</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d6' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词6'>Beautiful Data-统计语言模型的应用三：分词6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　微软研究院的官方网站上近期发布了一篇文章：“<a href="http://research.microsoft.com/en-us/collaboration/focus/cs/bingiton.aspx"target=_blank>Microsoft Web N-gram Services</a>“，大意是邀请整个社区使用其提供的”Web N-gram services”,这个服务旨在通过基于云的存储平台，推动网络搜索，自然语言处理，语音技术等相关领域，在研究现实世界的大规模网络数据时，利用该服务所提供动态数据对项目中的常规数据进行补充更新，进而有所发现和创新。<span id="more-3369"></span><br />
　　有意思的是它的副标题：“Access petabytes of data via the Web N-gram services (Public Beta)”，注意微软这个服务提供的是PB(petabytes)级别的数据:<br />
　　1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB<br />
　　如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话，那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。<br />
　　微软的这项”Web N-gram Services”包括如下服务内容：<br />
    　　* Content types: Document Body, Document Title, Anchor Texts<br />
    　　* Model types: Smoothed models<br />
    　　* N-gram availability: unigram, bigram, trigram, N-gram with N=4, 5.（最大也是5元）<br />
    　　* Training size (Body): All documents indexed by Bing<br />
    　　* Access: Hosted Services by Microsoft<br />
    　　* Updates: Periodical updates<br />
　　查了一下微软的这个“Web N-gram Services”，大致是在4月下旬WWW2010会议上公开的，之前一年属于”private beta”，目前是“public beta”，不过这篇文章最后说得是：“We are now expanding access in the Public Beta Web N-gram Services to include professors and students at accredited colleges and universities worldwide.” 似乎只针对授权的大学教授和学生开放。<br />
　　不过网上目前可以查到如何使用该服务的文章：<a href="http://data-gov.tw.rpi.edu/wiki/How_to_use_Microsoft_Web_N-gram_service"target=_blank>How to use Microsoft Web N-gram service</a>，微软自己也有一个“Quick Start”，需要你”read the terms of use”并点击“I agree”之后就能看到，或者，可以试一下下面这个网页：</p>
<p><a href="http://web-ngram.research.microsoft.com/info/quickstart.htm">http://web-ngram.research.microsoft.com/info/quickstart.htm</a></p>
<p>　　这两份文档都比较详细，有兴趣和条件的读者可以试一下。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/微软-web-n-gram-services">http://www.52nlp.cn/微软-web-n-gram-services</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-5' rel='bookmark' title='HMM学习最佳范例七：前向-后向算法5'>HMM学习最佳范例七：前向-后向算法5</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d3' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词3'>Beautiful Data-统计语言模型的应用三：分词3</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d6' rel='bookmark' title='Beautiful Data-统计语言模型的应用三：分词6'>Beautiful Data-统计语言模型的应用三：分词6</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>欧洲议会平行语料库介绍</title>
		<link>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce</link>
		<comments>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce#comments</comments>
		<pubDate>Thu, 16 Apr 2009 00:00:38 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[EuroMatrix]]></category>
		<category><![CDATA[Philipp Koehn]]></category>
		<category><![CDATA[SMT]]></category>
		<category><![CDATA[平行语料库]]></category>
		<category><![CDATA[欧洲议会]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1401</guid>
		<description><![CDATA[　　平行语料库对于统计机器翻译(SMT)的研究至关重要，欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译，其时间跨度从1996年至2006年，目前这个语料库还在继续扩建中。 　　欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的，包括11个欧洲语言的版本：包括拉丁语系的4种语言（法语，意大利语，西班牙语，葡萄牙语），日耳曼语系的5种语言（英语，荷兰语，德语，丹麦语，瑞典语）以及其他两种语言 　　欧洲语料库第三版数据情况如下： 　　1、总的可供使用或下载的资源（包括文本文件、预处理工具及句对齐工具）为783MB，以英语为中间语言，具体如下： 　　• 丹麦语－英语（Danish-English）平行语料库，126MB， 04/1996-10/2006 ； 　　• 德语－英语（German-English）平行语料库， 136 MB, 04/1996-10/2006； 　　• 希腊语－英语（Greek-English）平行语料库，82MB，04/1996-10/2006 ； 　　• 西班牙语－英语（Spanish-English），130 MB, 04/1996-10/2006 ； 　　• 芬兰语－英语（Finnish-English）平行语料库，124 MB, 01/1997-10/2006 ； 　　• 法语－英语（French-English）平行语料库，136MB，04/1996-10/2006 ； 　　• 意大利语－英语（Italian-English）平行语料库，130 MB, 04/1996-10/2006 ； 　　• 荷兰语－英语（Dutch-English）平行语料库，133 MB， 04/1996-10/2006 　　• 葡萄牙语－英语（Portuguese-English）平行语料库，132MB，04/1996-10/2006 &#8230; <a href="http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-systran' rel='bookmark' title='自然语言处理公司巡礼四：Systran'>自然语言处理公司巡礼四：Systran</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/moses%e6%9c%80%e6%96%b0%e7%89%88%e6%9c%ac%e5%8f%91%e5%b8%83' rel='bookmark' title='Moses最新版本发布'>Moses最新版本发布</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　平行语料库对于统计机器翻译(SMT)的研究至关重要，欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据<a href="http://www.statmt.org/europarl/"target="_blank">欧洲议会平行语料库</a>的英文主页介绍进行了粗略翻译，其时间跨度从1996年至2006年，目前这个语料库还在继续扩建中。<span id="more-1401"></span></p>
<p>　　欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的，包括11个欧洲语言的版本：包括拉丁语系的4种语言（法语，意大利语，西班牙语，葡萄牙语），日耳曼语系的5种语言（英语，荷兰语，德语，丹麦语，瑞典语）以及其他两种语言<br />
　　欧洲语料库第三版数据情况如下：<br />
　　1、总的可供使用或下载的资源（包括文本文件、预处理工具及句对齐工具）为783MB，以英语为中间语言，具体如下：<br />
　　•	丹麦语－英语（Danish-English）平行语料库，126MB， 04/1996-10/2006 ；<br />
　　•	德语－英语（German-English）平行语料库， 136 MB, 04/1996-10/2006；<br />
　　•	希腊语－英语（Greek-English）平行语料库，82MB，04/1996-10/2006 ；<br />
　　•	西班牙语－英语（Spanish-English），130 MB, 04/1996-10/2006 ；<br />
　　•	芬兰语－英语（Finnish-English）平行语料库，124 MB, 01/1997-10/2006 ；<br />
　　•	法语－英语（French-English）平行语料库，136MB，04/1996-10/2006 ；<br />
　　•	意大利语－英语（Italian-English）平行语料库，130 MB, 04/1996-10/2006 ；<br />
　　•	荷兰语－英语（Dutch-English）平行语料库，133 MB， 04/1996-10/2006<br />
　　•	葡萄牙语－英语（Portuguese-English）平行语料库，132MB，04/1996-10/2006 ；<br />
　　•	瑞典语－英语（Swedish-English）平行语料库，114 MB, 01/1997-10/2006 ；</p>
<p>　　2、语料库规模：<br />
A、在tokenizing和去除XML标记之后的单语语料库规模数据如下：<br />
语言　　　　　　　　　句子数　　　　　　　　　单词数<br />
丹麦语（Danish）	　　1,563,012	　　　　　　37,467,445<br />
德语（German）	　　　1,517,987	　　　　　　37,614,344<br />
希腊语（Greek）	　　　962,820	　　　　　　　26,306,875<br />
英语（English）	　　　1,461,429	　　　　　　39,618,240<br />
西班牙语（Spanish）	　1,476,106	　　　　　　41,408,300<br />
芬兰语（Finnish）	　　1,407,544	　　　　　　26,413,278<br />
法语（French）	　　　1,487,459	　　　　　　44,688,872<br />
意大利语（Italian）	　1,405,282	　　　　　　39,504,158<br />
荷兰语（Dutch）	　　　1,616,104	　　　　　　39,778,617<br />
葡萄牙语（Portuguese）	1,441,203	　　　　　　40,862,310<br />
瑞典语（Swedish）	　　1,475,195	　　　　　　33,407,005<br />
注：单语语料库主要用于统计机器翻译(SMT)中语言模型的训练。</p>
<p>B、在句对齐，tokenizing和去除XML标记之后的双语平行语料库规模数据如下：<br />
平行语料库(语言1-语言2)	　对齐句子数	　语言1单词数	　语言2单词数<br />
丹麦语－英语（Danish-English）	1,304,947	34,169,707	36,225,880<br />
德语－英语（German-English）	1,313,096	34,700,362	36,663,083<br />
希腊语－英语（Greek-English）	662,090	18,834,758	18,827,241<br />
西班牙语－英语（Spanish-English）	1,304,116	37,870,751	36,429,274<br />
芬兰语－英语（Finnish-English）	1,257,720	24,895,790	34,802,617<br />
法语－英语（French-English）	1,334,080	41,573,117	37,436,222<br />
意大利语－英语（Italian-English）	1,251,315	36,411,166	36,510,033<br />
荷兰语－英语（Dutch-English）	1,326,412	36,784,168	36,690,392<br />
葡萄牙语－英语（Portuguese-English）1,287,757	37,342,426	36,355,907<br />
瑞典语－英语（Swedish-English）	1,164,536	28,882,142	32,053,628<br />
注：平行语料库主要用于统计机器翻译(SMT)中翻译模型的训练。</p>
<p>C、用于SMT测试集和开发集的规模对应每种语言对均为2000句对。</p>
<p>　　欧洲平行语料库第三版由Cameron Shaw Fordyce (意大利CELCT), Josh Schroede和 Philipp Koehn (二人均属于英国爱丁堡大学 ）主持，由欧洲委员会资助的EuroMatrix项目支持。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/">http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-company-systran' rel='bookmark' title='自然语言处理公司巡礼四：Systran'>自然语言处理公司巡礼四：Systran</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%a4%9a%e4%b8%80%e7%82%b9%e5%ae%bd%e5%ae%b9' rel='bookmark' title='机器翻译：多一点宽容'>机器翻译：多一点宽容</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/moses%e6%9c%80%e6%96%b0%e7%89%88%e6%9c%ac%e5%8f%91%e5%b8%83' rel='bookmark' title='Moses最新版本发布'>Moses最新版本发布</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>EuroMatrix与开放精神</title>
		<link>http://www.52nlp.cn/euromatrix-and-spirit-of-openness</link>
		<comments>http://www.52nlp.cn/euromatrix-and-spirit-of-openness#comments</comments>
		<pubDate>Thu, 05 Mar 2009 00:00:12 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[bleu]]></category>
		<category><![CDATA[EuroMatrix]]></category>
		<category><![CDATA[Moses]]></category>
		<category><![CDATA[平行语料库]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1074</guid>
		<description><![CDATA[　　打开SMT官网主页下的这个页面：http://www.statmt.org/matrix/，会发现一个漂亮的“欧洲矩阵（Euro Matrix）”，这是一个由11*11小方块组成的矩阵：在其对角线上，有欧洲11个国家的名字和国旗；而对角线之外的小方块里，则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值，而这幅图的背后，则是宏伟的EuroMatrix工程！ 　　EuroMatrix自2006年9月开始至2009年2月结束，为期30个月，由欧盟信息社会技术项目(EU Information Society Technology program)资助，其宏伟目标是实现所有欧洲语言间的统计和混合型机器翻译。 　　EuroMatrix汇集了机器翻译领域国际公认的，高效率并有经验的研究小组及一些相关的工业界合作伙伴，包括英国爱丁堡大学（Edinburgh University,），捷克布拉格查尔斯大学（Charles University），德国萨尔兰大学（Saarland University），意大利语言和通讯技术评测中心（CELCT）及两个中小型企业：MorphoLogic和GROUP Technologies AG。 　EuroMatrix的具体目标如下： 　　1、实现针对所有欧盟语言的机器翻译系统，特别关注新加入和近期将要加入的会员国语言（Translation systems for all pairs of EU languages, with a special focus on the languages of new and near-term prospective member states）； 　　2、在统计机器翻译中有效的融入语言学知识（Efficient inclusion of linguistic &#8230; <a href="http://www.52nlp.cn/euromatrix-and-spirit-of-openness">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99' rel='bookmark' title='机器翻译新闻一则'>机器翻译新闻一则</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　打开SMT官网主页下的这个页面：<a href="http://www.statmt.org/matrix/"target=_blank>http://www.statmt.org/matrix/</a>，会发现一个漂亮的“欧洲矩阵（Euro Matrix）”，这是一个由11*11小方块组成的矩阵：在其对角线上，有欧洲11个国家的名字和国旗；而对角线之外的小方块里，则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值，而这幅图的背后，则是宏伟的EuroMatrix工程！<span id="more-1074"></span><br />
　　EuroMatrix自2006年9月开始至2009年2月结束，为期30个月，由欧盟信息社会技术项目(EU Information Society Technology program)资助，其宏伟目标是实现所有欧洲语言间的统计和混合型机器翻译。<br />
　　EuroMatrix汇集了机器翻译领域国际公认的，高效率并有经验的研究小组及一些相关的工业界合作伙伴，包括英国爱丁堡大学（Edinburgh University,），捷克布拉格查尔斯大学（Charles University），德国萨尔兰大学（Saarland University），意大利语言和通讯技术评测中心（CELCT）及两个中小型企业：MorphoLogic和GROUP Technologies AG。<br />
　<strong>EuroMatrix的具体目标如下：</strong><br />
　　1、实现针对所有欧盟语言的机器翻译系统，特别关注新加入和近期将要加入的会员国语言（Translation systems for all pairs of EU languages, with a special focus on the languages of new and near-term prospective member states）；<br />
　　2、在统计机器翻译中有效的融入语言学知识（Efficient inclusion of linguistic knowledge into statistical machine translation）；<br />
　　3、规则和统计方法相结合的混合型机器翻译架构的开发和测试（The development and testing of hybrid architectures for the integration of rule-based and statistical approaches）；<br />
　　4、组织，分析和诠释一个有竞争力的关注于欧洲经济和社会需求的机器翻译年度评测（Organization, analysis and interpretation of a competitive annual international evaluation of machine translation with a strong focus on European economic and social needs）；<br />
　　5、提供开源机器翻译技术，包括研究工具，软件和数据（The provision of open source machine translation technology including research tools, software and data）；<br />
　　6、对于建立在系统翻译基础之上的欧盟语言对间的最新机器翻译技术，机器翻译评测方法，用于MT的合适的工具、组件及数据等的系统编制和详细调查的持续更新（A systematically compiled and constantly updated detailed survey of the state of MT technology for all EU language pairs based on the developed systematic translation between all EU languages, the comparative MT evaluations and an inventory of available and needed tools, components, lingware and data）。<br />
　<strong>目前与EuroMatrix相关的工具和资源包括：</strong><br />
　　1、	Moses——著名的开源统计机器翻译系统；<br />
　　2、	Europarl Corpus——欧洲议会平行语料库，版本3，包括欧盟11个国家的官方语言间的平行语料库；<br />
　　3、	WMT 2007 Human Judgment Data——针对2007ACL SMT 研讨会参赛系统输出结果的句子级的人工专家评判数据；<br />
　　4、	CzEng Corpus——捷克-英语平行语料库，版本0.7。<br />
　　值得指出的是，以上这些资源和工具都是完全开放的，这对于MT尤其是SMT社区贡献是巨大的！现在很多研究工作都建立在这些工具和资源的基础之上，对于机器翻译的发展起到了很好的推动作用！<br />
　　不知道什么时候我们也能搞一个“ChinaMatrix”或者“AsiaMatrix”！</p>
<p>　EuroMatrix的主页见：<a href="http://www.euromatrix.net/"target=_blank>http://www.euromatrix.net/</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/euromatrix-and-spirit-of-openness/">http://www.52nlp.cn/euromatrix-and-spirit-of-openness/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/niutrans-%e4%b8%80%e5%a5%97%e5%bc%80%e6%ba%90%e7%9a%84%e7%bb%9f%e8%ae%a1%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e5%b9%b3%e5%8f%b0' rel='bookmark' title='NiuTrans: 一套开源的统计机器翻译平台'>NiuTrans: 一套开源的统计机器翻译平台</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/%e6%9c%ba%e5%99%a8%e7%bf%bb%e8%af%91%e6%96%b0%e9%97%bb%e4%b8%80%e5%88%99' rel='bookmark' title='机器翻译新闻一则'>机器翻译新闻一则</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/euromatrix-and-spirit-of-openness/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第三部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part#comments</comments>
		<pubDate>Sat, 10 Jan 2009 00:00:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=369</guid>
		<description><![CDATA[自然语言处理：单词计数 Natural Language Processing: (Simple) Word Counting 作者：Regina Barzilay（MIT,EECS Department, November 15, 2004) 译者：我爱自然语言处理（www.52nlp.cn ，2009年1月10日） 三、 语料库相关 a) 数据稀疏问题（Sparsity） 　i. “kick”在一百万单词中出现的次数（How often does “kick” occur in 1M words）?——58 　ii. “kick a ball”在一百万单词中出现的次数（How often does kick “kick a ball” occur in &#8230; <a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-369"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（www.52nlp.cn ，2009年1月10日）</p>
<p><strong>三、	语料库相关</strong><br />
a)	数据稀疏问题（Sparsity）<br />
　i.	“kick”在一百万单词中出现的次数（How often does “kick” occur in 1M words）?——58<br />
　ii.	“kick a ball”在一百万单词中出现的次数（How often does kick “kick a ball” occur in 1M words）?——0<br />
　iii.	“kick”在web中出现了多少（How often does “kick” occur in the web）?——6M<br />
　iv.	“kick a ball”在web中出现了多少(How often does “kick a ball” occur in the　web)?——8.000<br />
　v.	数据永远不会嫌多(There is no data like more data)<br />
b)	非常非常大的数据（Very Very Large Data）<br />
　i.	Brill&#038;Banko 2001：在混合集合消歧任务中通过增加数据规模的方法进行训练所得到的结果比在标准训练语料上训练的最好系统的结果好很多（In the task of confusion set disambiguation increase of data size yield significant improvement over the best performing system trained on the standard training corpus size set）<br />
　　1.	任务（Task）：对“too,to”这样的词对进行歧义消除（disambiguate between pairs such as too, to）<br />
　　2.	训练规模(Training Size)：从一百万词到10亿词不等（varies from one million to one billion）<br />
　　3.	用于对比的学习算法（Learning methods used for comparison）：winnow算法，感知器算法，决策树算法( winnow, perceptron, decision-tree)<br />
　ii.	Lapata&#038;Keller 2002, 2003：web可用做非常非常大的语料库（the web can be used as a very very large corpus）<br />
　　1.	计数可能被噪音干扰，但是对于一些任务这不是什么大问题（The counts can be noisy, but for some tasks this is not an issue）<br />
c)	布朗语料库(The Brown Corpus)<br />
　i.	著名的早期语料库（Famous early corpus） (Made by Nelson Francis and Henry Kucera at Brown University in the 1960s)<br />
　　1.	一个关于美国书面语的平衡语料库（A balanced corpus of written American English），包括报纸，小说，非小说，学术等体裁（Newspaper, novels, non-fiction, academic）<br />
　　2.	一百万单词数，500份文本（1 million words, 500 written texts）<br />
　　3.	你认为这是一个大型语料库吗（Do you think this is a large corpus）?<br />
　ii.	注，关于布朗语料库更详细的介绍：<br />
　　1.	20世纪60年代，Francis和Kucera在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库——布朗语料库。<br />
　　2.	主要目的是研究当代美国英语<br />
　　3.	按共时原则采集文本的语料库，只选录1961年间由美国人撰写出版的普通语体的文本。<br />
　　4.	规模为100万词次，全部语料分成15种体裁，共500个样本，每个样本不少于2000词次。<br />
　　5.	TAGGIT系统：词类标记81种，正确率达77%<br />
　　6.	语料分A-R共18种类型，A-J属于资讯类语体，K-R属于想象类语体<br />
　　　　　　例：A 报刊：新闻报道；B 报刊：社论…<br />
　　7.	样本通过随机采样方法得到。首先从各类体裁目录中按样本数要求随机选出进入语料库的文本，然后从选出的文本中随机截取不少于2000词次的片断作为样本，采样时要保证最后一个句子是完整的<br />
　　8.	版本：A,B,C,卑尔根I,卑尔根II,布朗MARC<br />
　　9.	布朗语料库从语料库的整体规模，语料的分布和语料的采样上都经过了精心的设计，一致被公认为是一个能反映语言共性的平衡语料库。<br />
d)	近年来的语料库（Recent Corpora）<br />
语料库(Corpus)　规模（Size）　领域（Domain）　语言（Language）<br />
NA News Corpus  600 million   　　newswire　　　American English<br />
British National Corpus 100 million balanced       　　British English<br />
EU proceedings　　20 million　　　legal　　　　　10 language pairs<br />
Penn Treebank　　2 million　　　newswire　　　American English<br />
Broadcast News　　　　　　　　　spoken　　　　7 languages<br />
SwitchBoard　　　2.4 million　　　spoken　　　American English<br />
　ii.	了解更多语料库的信息，请查询语言数据联盟（For more corpora, check the Linguistic Data Consortium）：<br />
　　　　　　<a href="http://www.ldc.upenn.edu/"target="_blank">http://www.ldc.upenn.edu/<br />
</a><br />
e)	语料库内容（Corpus Content）<br />
　i.	类型（Genre）：<br />
　　　– 新闻，小说，广播，会话（newswires, novels, broadcast, spontaneous conversations）<br />
　ii.	媒介（Media）：文本，音频，视频（text, audio, video）<br />
　iii.	标注（Annotations）：tokenization, 句法树（syntactic trees）, 语义（semantic senses）, 翻译（translations）<br />
f)	标注例子（Example of Annotations）: 词性标注（POS Tagging）<br />
　i.	词性标注集对简单的语法功能编码（POS tags encode simple grammatical functions）<br />
　ii.	几个词性标注集(Several tag sets):<br />
　　1.	Penn tag set (45 tags)<br />
　　2.	Brown tag set (87 tags)<br />
　　3.	CLAWS2 tag set (132 tags)<br />
　iii.	举例:<br />
　Category　　　　　　　Example　　　Claws c5　　Brown　　Penn<br />
　Adverb　　　　　　　often, badly　　　AJ0　　　　JJ　　　　JJ<br />
　Noun singular　　　　table, rose　　　　NN1　　　NN　　　　NN<br />
　Noun plural　　　　　tables, roses　　　NN2　　　NN　　　　NN<br />
　Noun proper singular　Boston, Leslie　　NP0　　　NP　　　　NNP<br />
g)	标注中的问题（Issues in Annotations）<br />
　i.	同样的认为不同的标注方案很正常（Different annotation schemes for the same task are common）<br />
　ii.	在某些情况下，方案之间有直接的映射关系；在其他情况下，它们并没有显示出任何关系（In some cases, there is a direct mapping between schemes; in other cases, they do not exhibit any regular relation）<br />
　iii.	标注的选择是由语言，计算和/或任务需要驱动的（Choice of annotation is motivated by the linguistic, the computational and/or the task requirements）</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part/"target="_blank">第四部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第二部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part#comments</comments>
		<pubDate>Fri, 09 Jan 2009 00:00:57 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[Zipf’s Law]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[省力原则]]></category>
		<category><![CDATA[齐夫定律]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=348</guid>
		<description><![CDATA[自然语言处理：单词计数 Natural Language Processing: (Simple) Word Counting 作者：Regina Barzilay（MIT,EECS Department, November 15, 2004) 译者：我爱自然语言处理（www.52nlp.cn ，2009年1月9日） 二、 齐夫定律(Zipf’s Law) a) 在任何一个自然语言里第n个最常用的单词的频率与n近似成反比（The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n）。 b) 齐夫定律表示频率(f)与排名®的关系如下（Zipf’s Law &#8230; <a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-348"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（www.52nlp.cn ，2009年1月9日）</p>
<p><strong>二、	齐夫定律(Zipf’s Law)</strong><br />
a)	在任何一个自然语言里第n个最常用的单词的频率与n近似成反比（The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n）。<br />
b)	齐夫定律表示频率(f)与排名®的关系如下（Zipf’s Law captures the relationship between frequency and rank）：<br />
　　　f #= 1/r（注：这里不能使用公式编辑器，近似表示）<br />
c)	存在一个常量k表示如下（There is a constant k such that）：<br />
　　　f* r = k<br />
d)	汤姆•索耶中的齐夫定律（Zipf’s Law in Tom Sawye）<br />
单词（word） 频率（Freq.(f)） 排名（Rank (r)） f ∗ r<br />
the　　　　　3332　　　　　　1　　　　　　　　3332<br />
and　　　　　2972　　　　　　2　　　　　　　　5944<br />
a　　　　　　1775　　　　　　3　　　　　　　　5235<br />
he　　　　　  877　　　　　　10 　　　　　　　8770<br />
but　　　　　410　　　　　　 20　　　　　　　 8400<br />
be　　　　　 294　　　　　　 30　　　　　　　 8820<br />
there　　　　222　　　　　　 40　　　　　　　 8880<br />
one　　　　　172　　　　　　50　　　　　　　  8600<br />
about　　　　158　　　　　　60　　　　　　　  9480<br />
never　　　　124　　　　　　80　　　　　　　  9920<br />
Oh　　　　　 116　　　　　　90　　　　　　　  10440<br />
e)	译者注：补充说明——Wiki中的齐夫定律<br />
　i.	从根本上讲, 齐夫定律可以表述为在自然语言的语料库里, 一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。 这个”定律”是哈佛大学的语言学家George Kingsley Zipf 发表的。<br />
　ii.	比如，在Brown 语库中，”the” 是最常见的单词，它在这个语库中出现了大约7%（10万单词中出现69971次）。正如齐夫定律中所描述的一样，出现次数为第二位的单词”of”占了整个语库中的3.5% (36411次), 之后的是”and” (28852次)。仅仅 135 个字汇就占了Brown 语库的一半。<br />
　iii.	齐夫定律是一个实验定律，而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察，坐标为log(排名)和log(频率)。比如，”the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线，那么它就遵循齐夫定律。最简单的齐夫定律的例子是 “1/f  function”。给出一组齐夫分布的频率，按照从最常见到非常见排列，第二常见的频率是最常见频率的出现次数的1/2。第三常见的频率是最常见的频率的1/3。 第n常见的频率是最常见频率出现次数的1/n。然而，这并不精确，因为所有的项必须出现一个整数次数，一个单词不可能出现2.5次。然而，在一个广域范围内并且做出适当的近似，许多自然现象都符合齐夫定律。<br />
f)	齐夫定律和省力原则（Zipf’s Law and Principle of Least Effort）<br />
　i.	人类行为和省力原则（Human Behavior and the Principle of Least Effort(Zipf)）：<br />
　　1.	“&#8230; Zipf argues that he found a unifying principle, the Principle of Least Effort, which underlies essentially the entire human condition (the book even includes some questionable remarks on human sexuality!). The principle argues that people will act so as to minimize their probable average rate of work”. (Manning&#038;Schutze, p.23)<br />
　ii.	注：北京大学姜望琪老师的《Zipf与省力原则》讲得很好，部分摘录如下：<br />
　　1.	省力原则(the Principle of Least Effort)，又称经济原则(the Economy Principle)，可以概括为：以最小的代价换取最大的收益。这是指导人类行为的一条根本性原则。在现代学术界，第一个明确提出这条原则的是美国学者 George Kingsley Zipf。<br />
　　2.	George Kingsley Zipf1902年1月出生于一个德裔家庭（其祖父十九世纪中叶移居美国)。1924年，他以优异成绩毕业于哈佛学院。1925年在德国波恩、柏林学习。1929年完成Relative Frequency as a Determinant of Phonetic Change，获得哈佛比较语文学博士学位。然后，他开始在哈佛教授德语。1931年与Joyce Waters Brown结婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language：An Introduction to Dynamic Philology。1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort：An Introduction to Human Ecology。1950年9月因患癌症病逝。<br />
　　3.	Zipf在1949年的书里提出了一条指导人类行为的基本原则——省力原则。Zipf在序言里指出，如果我们把人类行为纯粹看作一种自然现象，如果我们像研究蜜蜂的社会行为、鸟类的筑巢习惯一样研究人类行为，那么，我们就有可能揭示其背后的基本原则。这是他提出“省力原则”的大背景。当Zipf在众多互不相干的现象里都发现类似Zipf定律的规律性以后，他就开始思考造成这种规律性的原因。这是导致他提出“省力原则”的直接因素。在开始正式论证以前，Zipf首先澄清了“省力原则”的字面意义。第一，这是一种平均量。一个人一生要经历很多事情，他在一件事情上的省力可能导致在另一件事情上的费力。反过来，在一件事情上的费力，又可能导致在另一件事情上的省力。第二，这是一种概率。一个人很难在事先百分之百地肯定某种方法一定能让他省力，他只能有一个大概的估计。因为用词研究是理解整个言语过程的关键，而后者又是理解整个人类生态学的关键，他的具体论证从用词经济开始。Zipf认为，用词经济可以从两个角度来讨论：说话人的角度和听话人的角度。从说话人的角度看，用一个词表达所有的意义是最经济的。这样，说话人不需要花费气力去掌握更多的词汇，也不需要考虑如何从一堆词汇中选择一个合适的词。这种“单一词词汇量”就像木工的一种多用工具，集锯刨钻锤于一身，可以满足多种用途。但是，从听话人角度看，这种“单一词词汇量”是最费力的。他要决定这个词在某个特定场合到底是什么意思，而这几乎是不可能的。相反，对听话人来说，最省力的是每个词都只有一个意义，词汇的形式和意义之间完全一一对应。这两种经济原则是互相冲突、互相矛盾的。Zipf把它们叫做一条言语流中的两股对立的力量：“单一化力量”（the Force of Unification）和“多样化力量”（the Force of Diversification）。他认为，这两股力量只有达成妥协，达成一种平衡，才能实现真正的省力。事实正像预计的那样。请看Zipf的论证：假如只有单一化力量，那么任何语篇的单词数量（number）都会是1，而它的出现次数（frequency）会是100%。另一方面，假如只有多样化力量，那么每个单词的出现次数都会接近1，而单词总数量则由语篇的长度决定。这就是说， number和frequency是衡量词汇平衡程度的两个参数。</p>
<p>g)	其他规律（Other laws）：<br />
　i.	词义分布（Word sense distribution）；<br />
　ii.	音位分布（Phonemes distribution）；<br />
　iii.	词共现模式（Word co-occurrence patterns）；<br />
h)	近似服从齐夫定律的例子（Examples of collections approximately obeying Zipf’s law）：<br />
　i.	访问网页的频率（Frequency of accesses to web pages）；<br />
　ii.	居住点的规模（Sizes of settlements）；<br />
　iii.	个人收入的分布（Income distribution amongst individuals）；<br />
　iv.	地震的大小（Size of earthquakes）；<br />
　v.	演奏中的音乐符号（Notes in musical performances）；</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part"target="_blank">第三部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第一部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part#comments</comments>
		<pubDate>Thu, 08 Jan 2009 00:00:59 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[Zipf’s Law]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[齐夫定律]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=319</guid>
		<description><![CDATA[自然语言处理：单词计数 Natural Language Processing: (Simple) Word Counting 作者：Regina Barzilay（MIT,EECS Department, November 15, 2004) 译者：我爱自然语言处理（www.52nlp.cn ，2009年1月8日） 这一讲主要内容（Today): 1、语料库及其性质（Corpora and its properties）； 2、Zipf 法则( Zipf&#8217;s Law )； 3、标注语料库例子（Examples of annotated corpora）； 4、分词算法（Word segmentation algorithm）； 一、 语料库及其性质（Corpora and its properties）： a) 什么是语料库（Corpora） 　i. &#8230; <a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part">继续阅读 <span class="meta-nav">&#8594;</span></a>
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-319"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn/">www.52nlp.cn</a> ，2009年1月8日）<br />
<strong><br />
这一讲主要内容（Today):</strong><br />
1、语料库及其性质（Corpora and its properties）；<br />
2、Zipf 法则( Zipf&#8217;s Law )；<br />
3、标注语料库例子（Examples of annotated corpora）；<br />
4、分词算法（Word segmentation algorithm）；<br />
<strong><br />
一、	语料库及其性质（Corpora and its properties）：</strong><br />
a)	什么是语料库（Corpora）<br />
　i.	一个语料库就是一份自然发生的语言文本的载体，以机器可读形式存储（A corpus is a body of naturally occurring text, stored in a machine-readable form）；<br />
　ii.	一种平衡语料库尝试在语言或者其他领域具有代表性（A balanced corpus tries to be representative across a language or other domains）；<br />
b)	译者注：平行语料库与平衡语料库的特点与区别<br />
　i.	平行语料库（parallel corpus）通常是由双语或多语的对应语料构成，常常是翻译文本构成。例如：Babel English-Chinese Parallel Corpus。平行语料库常被用做对比和翻译研究之用。<br />
　ii.	平衡语料库（balanced corpus）主要是指其语料的取样上是均衡的，有代表性的。这种语料可以用作得出有关某种语言特性的一般性的结论。例如：Lancaster Corpus of Mandarin Chinese以及Academia Sinica Balanced Corpus of Modern Chinese<br />
c)	单词计数（Word Counts）<br />
　i.	在文本中最常见的单词是哪些（What are the most common words in the text）?<br />
　ii.	在文本中有多少个单词（How many words are there in the text）?<br />
　iii.	在大规模语料库中单词分布的特点是什么（What are the properties of word distribution in large corpora）?<br />
d)	我们以马克吐温的《汤姆•索耶历险记》为例（We will consider Mark Twain’s Tom Sawyer）：<br />
　单词(word)　　频率（Freq)　　用法(Use)<br />
　the　　　　　　3332　　　　　determiner (article)<br />
　and　　　　　　2972　　　　　conjunction<br />
　a　　　　　　　1775　　　　　determiner<br />
　to　　　　　　　1725　　　　　preposition, inf. marker<br />
　of　　　　　　　1440　　　　　preposition<br />
　was　　　　　　1161　　　　　auxiliary verb<br />
　it　　　　　　　1027　　　　　pronoun<br />
　in　　　　　　　906　　　　　preposition<br />
　that　　　　　　877　　　　　complementizer<br />
　Tom　　　　　　678　　　　　proper name<br />
　i.	一些观察结果（Some observations）：<br />
　　1.	虚词占了大多数（Dominance of function words）；<br />
　　2.	语料库依赖的主题词也占了一部分，例如”Tom”（Presence of corpus-dependent items (e.g., “Tom”)）<br />
　ii.	思考：是否有可能建立一个真正具有“代表性”的英文样本语料库（Is it possible to create a truly “representative” sample of English）?<br />
e)	这个例句里有多少个单词（How Many Words Are There）：<br />
<em>They picnicked by the pool, then lay back on the grass and looked at the stars.</em><br />
　i.	“型”(Type) ——语料库中不同单词的数目，词典容量（ number of distinct words in a corpus,vocabulary size)<br />
　ii.	“例”(Token) — 语料中总的单词数目（total number of words in a corpus）<br />
　iii.	注：以上定义参考自《自然语言处理综论》<br />
　iv.	汤姆•索耶历险记（Tom Sawyer）中有：<br />
　　1.	词型（word types） — 8, 018<br />
　　2.	词例（word tokens）— 71, 370<br />
　　3.	平均频率（average frequency）— 9（注：词例/词型）<br />
f)	词频的频率（Frequencies of Frequencies）：<br />
　　词频（Word Frequency）　词频的频率(Frequency of Frequency)<br />
　　1　　　　　　　　　　　　　3993<br />
　　2　　　　　　　　　　　　　1292<br />
　　3　　　　　　　　　　　　　664<br />
　　4　　　　　　　　　　　　　410<br />
　　5　　　　　　　　　　　　　243<br />
　　6　　　　　　　　　　　　　199<br />
　　7　　　　　　　　　　　　　172<br />
　　8　　　　　　　　　　　　　131<br />
　　9　　　　　　　　　　　　　82<br />
　　10　　　　　　　　　　　　 91<br />
　　11-50　　　　　　　　　　 540<br />
　　51-100　　　　　　　　　　99<br />
　大多数词在语料库中仅出现一次（Most words in a corpus appear only once）!</p>
<p>未完待续:<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/"target="_blank">第二部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/<br />
注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>BITS架构分析</title>
		<link>http://www.52nlp.cn/bits-structure-analysis</link>
		<comments>http://www.52nlp.cn/bits-structure-analysis#comments</comments>
		<pubDate>Fri, 26 Dec 2008 00:00:14 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[语料库]]></category>
		<category><![CDATA[BITS]]></category>
		<category><![CDATA[bootcat]]></category>
		<category><![CDATA[champollion]]></category>
		<category><![CDATA[LDC]]></category>
		<category><![CDATA[strand]]></category>
		<category><![CDATA[wac]]></category>
		<category><![CDATA[语料库采集]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=121</guid>
		<description><![CDATA[　　晚上读了LDC的语料库自动采集系统（BITS）的论文，感觉其可操作性更大，可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。关于BITS的架构： 　第一部分：搜集资源 　　1.搜寻候选urls，它讲解的不详，可以考虑strand的方法，并且strand已提供了部分双语候选urls数据库，前期可以考虑直接利用这些数据库； 　　2.识别网络语言种类：它使用N-Gram方法训练识别器，不错，可以借鉴； 　　3.网页下载：和strand一样，都是利用wget，而wac和bootcat都有相似的方法，可以考虑直接利用； 　　4.html网页清洗和语言识别：BITS将html转换为纯text格式，linux下有html2text的软件，不过要根据需求进行清洗加工； 　第二部分：寻找翻译对（重点加难点） 　　1.语块识别：利用网页的路径名识别，strand也是利用了这个方法作为初步识别；不过BITS最重要的方法是基于内容的翻译对识别，其实就是利用双语词典，进行相似度计算，算法很简单，真正需要的是训练时间。这个方法的操作性很强，并且从篇章中抽句对齐的方法也可以利用词典，突然感觉基于词典的方法不错！这种方法可以做到初步的篇章，段落，甚至句子对齐。在作者的另一篇文章构建LDC文章中，他又使用了一种Champollion 的句对齐方法，可以参考。 　　2.关于句对齐，经典的是Gale and Church （1991）的基于长度的方法，但是从报告中来看，这种方法对近似语言比较好，对于远距离语言效果不太好，这样利用词典的方法就可以作为一个补充。 　　3.同时发现了一个对齐工具箱：MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练，可以达到语块对齐，句对齐，短语对齐及词对齐的水平。还没试用，但是记住：优秀的程序员写程序，伟大的程序员利用现有的资源。 注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn 本文链接地址： http://www.52nlp.cn/bits-structure-analysis/ 相关文章: MIT自然语言处理第三讲：概率语言模型（第三部分） 统计机器翻译与资源建设思考 ACL Anthology 姊妹篇：ACL Anthology Network
相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　晚上读了LDC的语料库自动采集系统（BITS）的论文，感觉其可操作性更大，可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。<span id="more-121"></span>关于BITS的架构：<br />
　<strong>第一部分：搜集资源</strong><br />
　　1.搜寻候选urls，它讲解的不详，可以考虑strand的方法，并且strand已提供了部分双语候选urls数据库，前期可以考虑直接利用这些数据库；<br />
　　2.识别网络语言种类：它使用N-Gram方法训练识别器，不错，可以借鉴；<br />
　　3.网页下载：和strand一样，都是利用wget，而wac和bootcat都有相似的方法，可以考虑直接利用；<br />
　　4.html网页清洗和语言识别：BITS将html转换为纯text格式，linux下有html2text的软件，不过要根据需求进行清洗加工；<br />
　<strong>第二部分：寻找翻译对（重点加难点）</strong><br />
　　1.语块识别：利用网页的路径名识别，strand也是利用了这个方法作为初步识别；不过BITS最重要的方法是基于内容的翻译对识别，其实就是利用双语词典，进行相似度计算，算法很简单，真正需要的是训练时间。这个方法的操作性很强，并且从篇章中抽句对齐的方法也可以利用词典，突然感觉基于词典的方法不错！这种方法可以做到初步的篇章，段落，甚至句子对齐。在作者的另一篇文章构建LDC文章中，他又使用了一种Champollion 的句对齐方法，可以参考。<br />
　　2.关于句对齐，经典的是Gale and Church （1991）的基于长度的方法，但是从报告中来看，这种方法对近似语言比较好，对于远距离语言效果不太好，这样利用词典的方法就可以作为一个补充。<br />
　　3.同时发现了一个对齐工具箱：MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练，可以达到语块对齐，句对齐，短语对齐及词对齐的水平。还没试用，但是记住：优秀的程序员写程序，伟大的程序员利用现有的资源。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/bits-structure-analysis/">http://www.52nlp.cn/bits-structure-analysis/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>
<p>相关文章:<ol>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/about-acl-anthology-network' rel='bookmark' title='ACL Anthology 姊妹篇：ACL Anthology Network'>ACL Anthology 姊妹篇：ACL Anthology Network</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/bits-structure-analysis/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

