<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>我爱自然语言处理 &#187; 语料库</title>
	<atom:link href="http://www.52nlp.cn/category/corpus/feed" rel="self" type="application/rss+xml" />
	<link>http://www.52nlp.cn</link>
	<description>I Love Natural Language Processing</description>
	<lastBuildDate>Wed, 21 Jul 2010 15:33:24 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.2</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>微软：Web N-gram Services</title>
		<link>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services</link>
		<comments>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services#comments</comments>
		<pubDate>Wed, 12 May 2010 18:07:12 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[语料库]]></category>
		<category><![CDATA[语言模型]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Microsoft]]></category>
		<category><![CDATA[n-gram]]></category>
		<category><![CDATA[Web]]></category>
		<category><![CDATA[Web N-gram Services]]></category>
		<category><![CDATA[云存储]]></category>
		<category><![CDATA[微软]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=3369</guid>
		<description><![CDATA[　　微软研究院的官方网站上近期发布了一篇文章：“Microsoft Web N-gram Services&#8220;，大意是邀请整个社区使用其提供的&#8221;Web N-gram services&#8221;,这个服务旨在通过基于云的存储平台，推动网络搜索，自然语言处理，语音技术等相关领域，在研究现实世界的大规模网络数据时，利用该服务所提供动态数据对项目中的常规数据进行补充更新，进而有所发现和创新。
　　有意思的是它的副标题：“Access petabytes of data via the Web N-gram services (Public Beta)”，注意微软这个服务提供的是PB(petabytes)级别的数据:
　　1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB
　　如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话，那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。
　　微软的这项&#8221;Web N-gram Services&#8221;包括如下服务内容：
    　　* Content types: Document Body, Document Title, Anchor Texts
    　　* Model types: Smoothed models
    　　* [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d8' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词8'>Beautiful Data-统计语言模型的应用三：分词8</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='Permanent Link: HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='Permanent Link: 语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-5' rel='bookmark' title='Permanent Link: HMM学习最佳范例七：前向-后向算法5'>HMM学习最佳范例七：前向-后向算法5</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='Permanent Link: 语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　微软研究院的官方网站上近期发布了一篇文章：“<a href="http://research.microsoft.com/en-us/collaboration/focus/cs/bingiton.aspx"target=_blank>Microsoft Web N-gram Services</a>&#8220;，大意是邀请整个社区使用其提供的&#8221;Web N-gram services&#8221;,这个服务旨在通过基于云的存储平台，推动网络搜索，自然语言处理，语音技术等相关领域，在研究现实世界的大规模网络数据时，利用该服务所提供动态数据对项目中的常规数据进行补充更新，进而有所发现和创新。<span id="more-3369"></span><br />
　　有意思的是它的副标题：“Access petabytes of data via the Web N-gram services (Public Beta)”，注意微软这个服务提供的是PB(petabytes)级别的数据:<br />
　　1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB<br />
　　如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话，那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。<br />
　　微软的这项&#8221;Web N-gram Services&#8221;包括如下服务内容：<br />
    　　* Content types: Document Body, Document Title, Anchor Texts<br />
    　　* Model types: Smoothed models<br />
    　　* N-gram availability: unigram, bigram, trigram, N-gram with N=4, 5.（最大也是5元）<br />
    　　* Training size (Body): All documents indexed by Bing<br />
    　　* Access: Hosted Services by Microsoft<br />
    　　* Updates: Periodical updates<br />
　　查了一下微软的这个“Web N-gram Services”，大致是在4月下旬WWW2010会议上公开的，之前一年属于&#8221;private beta”，目前是“public beta”，不过这篇文章最后说得是：“We are now expanding access in the Public Beta Web N-gram Services to include professors and students at accredited colleges and universities worldwide.” 似乎只针对授权的大学教授和学生开放。<br />
　　不过网上目前可以查到如何使用该服务的文章：<a href="http://data-gov.tw.rpi.edu/wiki/How_to_use_Microsoft_Web_N-gram_service"target=_blank>How to use Microsoft Web N-gram service</a>，微软自己也有一个“Quick Start&#8221;，需要你”read the terms of use”并点击“I agree&#8221;之后就能看到，或者，可以试一下下面这个网页：</p>
<p><a href="http://web-ngram.research.microsoft.com/info/quickstart.htm">http://web-ngram.research.microsoft.com/info/quickstart.htm</a></p>
<p>　　这两份文档都比较详细，有兴趣和条件的读者可以试一下。</p>
<p>注：转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/微软-web-n-gram-services">http://www.52nlp.cn/微软-web-n-gram-services</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%ba%8c%e8%83%8c%e6%99%af' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用二：背景'>Beautiful Data-统计语言模型的应用二：背景</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d8' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词8'>Beautiful Data-统计语言模型的应用三：分词8</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-2' rel='bookmark' title='Permanent Link: HMM学习最佳范例七：前向-后向算法2'>HMM学习最佳范例七：前向-后向算法2</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='Permanent Link: 语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
<li><a href='http://www.52nlp.cn/hmm-learn-best-practices-seven-forward-backward-algorithm-5' rel='bookmark' title='Permanent Link: HMM学习最佳范例七：前向-后向算法5'>HMM学习最佳范例七：前向-后向算法5</a></li>
<li><a href='http://www.52nlp.cn/language-modeling-toolkit-irstlm-installation-and-trial-noting' rel='bookmark' title='Permanent Link: 语言模型工具IRSTLM安装及试用手记'>语言模型工具IRSTLM安装及试用手记</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/%e6%8e%a8%e8%8d%90%e5%bc%a0%e5%8d%8e%e5%b9%b3%e8%80%81%e5%b8%88%e7%9a%84%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e5%b7%a5%e5%85%b7-ictclas2010' rel='bookmark' title='Permanent Link: 推荐张华平老师的中文分词工具ICTCLAS2010'>推荐张华平老师的中文分词工具ICTCLAS2010</a></li>
<li><a href='http://www.52nlp.cn/beautiful-data-%e7%bb%9f%e8%ae%a1%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e5%ba%94%e7%94%a8%e4%b8%89%e5%88%86%e8%af%8d7' rel='bookmark' title='Permanent Link: Beautiful Data-统计语言模型的应用三：分词7'>Beautiful Data-统计语言模型的应用三：分词7</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/%e5%be%ae%e8%bd%af-web-n-gram-services/feed</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>欧洲议会平行语料库介绍</title>
		<link>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce</link>
		<comments>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce#comments</comments>
		<pubDate>Thu, 16 Apr 2009 00:00:38 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[EuroMatrix]]></category>
		<category><![CDATA[Philipp Koehn]]></category>
		<category><![CDATA[SMT]]></category>
		<category><![CDATA[平行语料库]]></category>
		<category><![CDATA[欧洲议会]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1401</guid>
		<description><![CDATA[　　平行语料库对于统计机器翻译(SMT)的研究至关重要，欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译，其时间跨度从1996年至2006年，目前这个语料库还在继续扩建中。
　　欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的，包括11个欧洲语言的版本：包括拉丁语系的4种语言（法语，意大利语，西班牙语，葡萄牙语），日耳曼语系的5种语言（英语，荷兰语，德语，丹麦语，瑞典语）以及其他两种语言
　　欧洲语料库第三版数据情况如下：
　　1、总的可供使用或下载的资源（包括文本文件、预处理工具及句对齐工具）为783MB，以英语为中间语言，具体如下：
　　•	丹麦语－英语（Danish-English）平行语料库，126MB， 04/1996-10/2006 ；
　　•	德语－英语（German-English）平行语料库， 136 MB, 04/1996-10/2006；
　　•	希腊语－英语（Greek-English）平行语料库，82MB，04/1996-10/2006 ；
　　•	西班牙语－英语（Spanish-English），130 MB, 04/1996-10/2006 ；
　　•	芬兰语－英语（Finnish-English）平行语料库，124 MB, 01/1997-10/2006 ；
　　•	法语－英语（French-English）平行语料库，136MB，04/1996-10/2006 ；
　　•	意大利语－英语（Italian-English）平行语料库，130 MB, 04/1996-10/2006 ；
　　•	荷兰语－英语（Dutch-English）平行语料库，133 MB， 04/1996-10/2006
　　•	葡萄牙语－英语（Portuguese-English）平行语料库，132MB，04/1996-10/2006 ；
　　•	瑞典语－英语（Swedish-English）平行语料库，114 MB, 01/1997-10/2006 ；
　　2、语料库规模：
A、在tokenizing和去除XML标记之后的单语语料库规模数据如下：
语言　　　　　　　　　句子数　　　　　　　　　单词数
丹麦语（Danish）	　　1,563,012	　　　　　　37,467,445
德语（German）	　　　1,517,987	　　　　　　37,614,344
希腊语（Greek）	　　　962,820	　　　　　　　26,306,875
英语（English）	　　　1,461,429	　　　　　　39,618,240
西班牙语（Spanish）	　1,476,106	　　　　　　41,408,300
芬兰语（Finnish）	　　1,407,544	　　　　　　26,413,278
法语（French）	　　　1,487,459	　　　　　　44,688,872
意大利语（Italian）	　1,405,282	　　　　　　39,504,158
荷兰语（Dutch）	　　　1,616,104	　　　　　　39,778,617
葡萄牙语（Portuguese）	1,441,203	　　　　　　40,862,310
瑞典语（Swedish）	　　1,475,195	　　　　　　33,407,005
注：单语语料库主要用于统计机器翻译(SMT)中语言模型的训练。
B、在句对齐，tokenizing和去除XML标记之后的双语平行语料库规模数据如下：
平行语料库(语言1-语言2)	　对齐句子数	　语言1单词数	　语言2单词数
丹麦语－英语（Danish-English）	1,304,947	34,169,707	36,225,880
德语－英语（German-English）	1,313,096	34,700,362	36,663,083
希腊语－英语（Greek-English）	662,090	18,834,758	18,827,241
西班牙语－英语（Spanish-English）	1,304,116	37,870,751	36,429,274
芬兰语－英语（Finnish-English）	1,257,720	24,895,790	34,802,617
法语－英语（French-English）	1,334,080	41,573,117	37,436,222
意大利语－英语（Italian-English）	1,251,315	36,411,166	36,510,033
荷兰语－英语（Dutch-English）	1,326,412	36,784,168	36,690,392
葡萄牙语－英语（Portuguese-English）1,287,757	37,342,426	36,355,907
瑞典语－英语（Swedish-English）	1,164,536	28,882,142	32,053,628
注：平行语料库主要用于统计机器翻译(SMT)中翻译模型的训练。
C、用于SMT测试集和开发集的规模对应每种语言对均为2000句对。
　　欧洲平行语料库第三版由Cameron Shaw Fordyce (意大利CELCT), Josh Schroede和 Philipp Koehn (二人均属于英国爱丁堡大学 ）主持，由欧洲委员会资助的EuroMatrix项目支持。
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/










相关文章:自然语言处理公司巡礼四：Systran
SMT经典再回首之Brown90:远见卓识
EuroMatrix与开放精神
最有影响力的自然语言处理论文
统计机器翻译与资源建设思考
统计机器翻译英雄谱一：Franz Josef Och
机器翻译的八大挑战
Moses最新版本发布
自动作文评分与自然语言处理
统计机器翻译文献阅读指南



相关文章:<ol><li><a href='http://www.52nlp.cn/natural-language-processing-company-systran' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼四：Systran'>自然语言处理公司巡礼四：Systran</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/moses%e6%9c%80%e6%96%b0%e7%89%88%e6%9c%ac%e5%8f%91%e5%b8%83' rel='bookmark' title='Permanent Link: Moses最新版本发布'>Moses最新版本发布</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='Permanent Link: 自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　平行语料库对于统计机器翻译(SMT)的研究至关重要，欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据<a href="http://www.statmt.org/europarl/"target="_blank">欧洲议会平行语料库</a>的英文主页介绍进行了粗略翻译，其时间跨度从1996年至2006年，目前这个语料库还在继续扩建中。<span id="more-1401"></span></p>
<p>　　欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的，包括11个欧洲语言的版本：包括拉丁语系的4种语言（法语，意大利语，西班牙语，葡萄牙语），日耳曼语系的5种语言（英语，荷兰语，德语，丹麦语，瑞典语）以及其他两种语言<br />
　　欧洲语料库第三版数据情况如下：<br />
　　1、总的可供使用或下载的资源（包括文本文件、预处理工具及句对齐工具）为783MB，以英语为中间语言，具体如下：<br />
　　•	丹麦语－英语（Danish-English）平行语料库，126MB， 04/1996-10/2006 ；<br />
　　•	德语－英语（German-English）平行语料库， 136 MB, 04/1996-10/2006；<br />
　　•	希腊语－英语（Greek-English）平行语料库，82MB，04/1996-10/2006 ；<br />
　　•	西班牙语－英语（Spanish-English），130 MB, 04/1996-10/2006 ；<br />
　　•	芬兰语－英语（Finnish-English）平行语料库，124 MB, 01/1997-10/2006 ；<br />
　　•	法语－英语（French-English）平行语料库，136MB，04/1996-10/2006 ；<br />
　　•	意大利语－英语（Italian-English）平行语料库，130 MB, 04/1996-10/2006 ；<br />
　　•	荷兰语－英语（Dutch-English）平行语料库，133 MB， 04/1996-10/2006<br />
　　•	葡萄牙语－英语（Portuguese-English）平行语料库，132MB，04/1996-10/2006 ；<br />
　　•	瑞典语－英语（Swedish-English）平行语料库，114 MB, 01/1997-10/2006 ；</p>
<p>　　2、语料库规模：<br />
A、在tokenizing和去除XML标记之后的单语语料库规模数据如下：<br />
语言　　　　　　　　　句子数　　　　　　　　　单词数<br />
丹麦语（Danish）	　　1,563,012	　　　　　　37,467,445<br />
德语（German）	　　　1,517,987	　　　　　　37,614,344<br />
希腊语（Greek）	　　　962,820	　　　　　　　26,306,875<br />
英语（English）	　　　1,461,429	　　　　　　39,618,240<br />
西班牙语（Spanish）	　1,476,106	　　　　　　41,408,300<br />
芬兰语（Finnish）	　　1,407,544	　　　　　　26,413,278<br />
法语（French）	　　　1,487,459	　　　　　　44,688,872<br />
意大利语（Italian）	　1,405,282	　　　　　　39,504,158<br />
荷兰语（Dutch）	　　　1,616,104	　　　　　　39,778,617<br />
葡萄牙语（Portuguese）	1,441,203	　　　　　　40,862,310<br />
瑞典语（Swedish）	　　1,475,195	　　　　　　33,407,005<br />
注：单语语料库主要用于统计机器翻译(SMT)中语言模型的训练。</p>
<p>B、在句对齐，tokenizing和去除XML标记之后的双语平行语料库规模数据如下：<br />
平行语料库(语言1-语言2)	　对齐句子数	　语言1单词数	　语言2单词数<br />
丹麦语－英语（Danish-English）	1,304,947	34,169,707	36,225,880<br />
德语－英语（German-English）	1,313,096	34,700,362	36,663,083<br />
希腊语－英语（Greek-English）	662,090	18,834,758	18,827,241<br />
西班牙语－英语（Spanish-English）	1,304,116	37,870,751	36,429,274<br />
芬兰语－英语（Finnish-English）	1,257,720	24,895,790	34,802,617<br />
法语－英语（French-English）	1,334,080	41,573,117	37,436,222<br />
意大利语－英语（Italian-English）	1,251,315	36,411,166	36,510,033<br />
荷兰语－英语（Dutch-English）	1,326,412	36,784,168	36,690,392<br />
葡萄牙语－英语（Portuguese-English）1,287,757	37,342,426	36,355,907<br />
瑞典语－英语（Swedish-English）	1,164,536	28,882,142	32,053,628<br />
注：平行语料库主要用于统计机器翻译(SMT)中翻译模型的训练。</p>
<p>C、用于SMT测试集和开发集的规模对应每种语言对均为2000句对。</p>
<p>　　欧洲平行语料库第三版由Cameron Shaw Fordyce (意大利CELCT), Josh Schroede和 Philipp Koehn (二人均属于英国爱丁堡大学 ）主持，由欧洲委员会资助的EuroMatrix项目支持。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/">http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/natural-language-processing-company-systran' rel='bookmark' title='Permanent Link: 自然语言处理公司巡礼四：Systran'>自然语言处理公司巡礼四：Systran</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/most-influential-nlp-papers' rel='bookmark' title='Permanent Link: 最有影响力的自然语言处理论文'>最有影响力的自然语言处理论文</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/moses%e6%9c%80%e6%96%b0%e7%89%88%e6%9c%ac%e5%8f%91%e5%b8%83' rel='bookmark' title='Permanent Link: Moses最新版本发布'>Moses最新版本发布</a></li>
<li><a href='http://www.52nlp.cn/automated-essay-scoring-and-natural-language-processing' rel='bookmark' title='Permanent Link: 自动作文评分与自然语言处理'>自动作文评分与自然语言处理</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>EuroMatrix与开放精神</title>
		<link>http://www.52nlp.cn/euromatrix-and-spirit-of-openness</link>
		<comments>http://www.52nlp.cn/euromatrix-and-spirit-of-openness#comments</comments>
		<pubDate>Thu, 05 Mar 2009 00:00:12 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[bleu]]></category>
		<category><![CDATA[EuroMatrix]]></category>
		<category><![CDATA[Moses]]></category>
		<category><![CDATA[平行语料库]]></category>
		<category><![CDATA[统计机器翻译]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=1074</guid>
		<description><![CDATA[　　打开SMT官网主页下的这个页面：http://www.statmt.org/matrix/，会发现一个漂亮的“欧洲矩阵（Euro Matrix）”，这是一个由11*11小方块组成的矩阵：在其对角线上，有欧洲11个国家的名字和国旗；而对角线之外的小方块里，则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值，而这幅图的背后，则是宏伟的EuroMatrix工程！
　　EuroMatrix自2006年9月开始至2009年2月结束，为期30个月，由欧盟信息社会技术项目(EU Information Society Technology program)资助，其宏伟目标是实现所有欧洲语言间的统计和混合型机器翻译。
　　EuroMatrix汇集了机器翻译领域国际公认的，高效率并有经验的研究小组及一些相关的工业界合作伙伴，包括英国爱丁堡大学（Edinburgh University,），捷克布拉格查尔斯大学（Charles University），德国萨尔兰大学（Saarland University），意大利语言和通讯技术评测中心（CELCT）及两个中小型企业：MorphoLogic和GROUP Technologies AG。
　EuroMatrix的具体目标如下：
　　1、实现针对所有欧盟语言的机器翻译系统，特别关注新加入和近期将要加入的会员国语言（Translation systems for all pairs of EU languages, with a special focus on the languages of new and near-term prospective member states）；
　　2、在统计机器翻译中有效的融入语言学知识（Efficient inclusion of linguistic knowledge into statistical machine translation）；
　　3、规则和统计方法相结合的混合型机器翻译架构的开发和测试（The development and testing of hybrid architectures for the integration of rule-based and statistical approaches）；
　　4、组织，分析和诠释一个有竞争力的关注于欧洲经济和社会需求的机器翻译年度评测（Organization, analysis [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Permanent Link: Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='Permanent Link: 机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='Permanent Link: 语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　打开SMT官网主页下的这个页面：<a href="http://www.statmt.org/matrix/"target=_blank>http://www.statmt.org/matrix/</a>，会发现一个漂亮的“欧洲矩阵（Euro Matrix）”，这是一个由11*11小方块组成的矩阵：在其对角线上，有欧洲11个国家的名字和国旗；而对角线之外的小方块里，则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值，而这幅图的背后，则是宏伟的EuroMatrix工程！<span id="more-1074"></span><br />
　　EuroMatrix自2006年9月开始至2009年2月结束，为期30个月，由欧盟信息社会技术项目(EU Information Society Technology program)资助，其宏伟目标是实现所有欧洲语言间的统计和混合型机器翻译。<br />
　　EuroMatrix汇集了机器翻译领域国际公认的，高效率并有经验的研究小组及一些相关的工业界合作伙伴，包括英国爱丁堡大学（Edinburgh University,），捷克布拉格查尔斯大学（Charles University），德国萨尔兰大学（Saarland University），意大利语言和通讯技术评测中心（CELCT）及两个中小型企业：MorphoLogic和GROUP Technologies AG。<br />
　<strong>EuroMatrix的具体目标如下：</strong><br />
　　1、实现针对所有欧盟语言的机器翻译系统，特别关注新加入和近期将要加入的会员国语言（Translation systems for all pairs of EU languages, with a special focus on the languages of new and near-term prospective member states）；<br />
　　2、在统计机器翻译中有效的融入语言学知识（Efficient inclusion of linguistic knowledge into statistical machine translation）；<br />
　　3、规则和统计方法相结合的混合型机器翻译架构的开发和测试（The development and testing of hybrid architectures for the integration of rule-based and statistical approaches）；<br />
　　4、组织，分析和诠释一个有竞争力的关注于欧洲经济和社会需求的机器翻译年度评测（Organization, analysis and interpretation of a competitive annual international evaluation of machine translation with a strong focus on European economic and social needs）；<br />
　　5、提供开源机器翻译技术，包括研究工具，软件和数据（The provision of open source machine translation technology including research tools, software and data）；<br />
　　6、对于建立在系统翻译基础之上的欧盟语言对间的最新机器翻译技术，机器翻译评测方法，用于MT的合适的工具、组件及数据等的系统编制和详细调查的持续更新（A systematically compiled and constantly updated detailed survey of the state of MT technology for all EU language pairs based on the developed systematic translation between all EU languages, the comparative MT evaluations and an inventory of available and needed tools, components, lingware and data）。<br />
　<strong>目前与EuroMatrix相关的工具和资源包括：</strong><br />
　　1、	Moses——著名的开源统计机器翻译系统；<br />
　　2、	Europarl Corpus——欧洲议会平行语料库，版本3，包括欧盟11个国家的官方语言间的平行语料库；<br />
　　3、	WMT 2007 Human Judgment Data——针对2007ACL SMT 研讨会参赛系统输出结果的句子级的人工专家评判数据；<br />
　　4、	CzEng Corpus——捷克-英语平行语料库，版本0.7。<br />
　　值得指出的是，以上这些资源和工具都是完全开放的，这对于MT尤其是SMT社区贡献是巨大的！现在很多研究工作都建立在这些工具和资源的基础之上，对于机器翻译的发展起到了很好的推动作用！<br />
　　不知道什么时候我们也能搞一个“ChinaMatrix”或者“AsiaMatrix”！</p>
<p>　EuroMatrix的主页见：<a href="http://www.euromatrix.net/"target=_blank>http://www.euromatrix.net/</a></p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/euromatrix-and-spirit-of-openness/">http://www.52nlp.cn/euromatrix-and-spirit-of-openness/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/moses-recent-developments-and-others' rel='bookmark' title='Permanent Link: Moses近期动态及其他'>Moses近期动态及其他</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/machine-translation-archive' rel='bookmark' title='Permanent Link: 机器翻译档案计划'>机器翻译档案计划</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/language-model-training-tools-srilm-details' rel='bookmark' title='Permanent Link: 语言模型训练工具SRILM详解'>语言模型训练工具SRILM详解</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/euromatrix-and-spirit-of-openness/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第三部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part#comments</comments>
		<pubDate>Sat, 10 Jan 2009 00:00:05 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=369</guid>
		<description><![CDATA[自然语言处理：单词计数
Natural Language Processing: (Simple) Word Counting
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年1月10日）
三、	语料库相关
a)	数据稀疏问题（Sparsity）
　i.	“kick”在一百万单词中出现的次数（How often does “kick” occur in 1M words）?——58
　ii.	“kick a ball”在一百万单词中出现的次数（How often does kick “kick a ball” occur in 1M words）?——0
　iii.	“kick”在web中出现了多少（How often does “kick” occur in the web）?——6M
　iv.	“kick a ball”在web中出现了多少(How often does “kick a ball” occur in the　web)?——8.000
　v.	数据永远不会嫌多(There is no data like more data)
b)	非常非常大的数据（Very Very [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-369"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（www.52nlp.cn ，2009年1月10日）</p>
<p><strong>三、	语料库相关</strong><br />
a)	数据稀疏问题（Sparsity）<br />
　i.	“kick”在一百万单词中出现的次数（How often does “kick” occur in 1M words）?——58<br />
　ii.	“kick a ball”在一百万单词中出现的次数（How often does kick “kick a ball” occur in 1M words）?——0<br />
　iii.	“kick”在web中出现了多少（How often does “kick” occur in the web）?——6M<br />
　iv.	“kick a ball”在web中出现了多少(How often does “kick a ball” occur in the　web)?——8.000<br />
　v.	数据永远不会嫌多(There is no data like more data)<br />
b)	非常非常大的数据（Very Very Large Data）<br />
　i.	Brill&#038;Banko 2001：在混合集合消歧任务中通过增加数据规模的方法进行训练所得到的结果比在标准训练语料上训练的最好系统的结果好很多（In the task of confusion set disambiguation increase of data size yield significant improvement over the best performing system trained on the standard training corpus size set）<br />
　　1.	任务（Task）：对“too,to”这样的词对进行歧义消除（disambiguate between pairs such as too, to）<br />
　　2.	训练规模(Training Size)：从一百万词到10亿词不等（varies from one million to one billion）<br />
　　3.	用于对比的学习算法（Learning methods used for comparison）：winnow算法，感知器算法，决策树算法( winnow, perceptron, decision-tree)<br />
　ii.	Lapata&#038;Keller 2002, 2003：web可用做非常非常大的语料库（the web can be used as a very very large corpus）<br />
　　1.	计数可能被噪音干扰，但是对于一些任务这不是什么大问题（The counts can be noisy, but for some tasks this is not an issue）<br />
c)	布朗语料库(The Brown Corpus)<br />
　i.	著名的早期语料库（Famous early corpus） (Made by Nelson Francis and Henry Kucera at Brown University in the 1960s)<br />
　　1.	一个关于美国书面语的平衡语料库（A balanced corpus of written American English），包括报纸，小说，非小说，学术等体裁（Newspaper, novels, non-fiction, academic）<br />
　　2.	一百万单词数，500份文本（1 million words, 500 written texts）<br />
　　3.	你认为这是一个大型语料库吗（Do you think this is a large corpus）?<br />
　ii.	注，关于布朗语料库更详细的介绍：<br />
　　1.	20世纪60年代，Francis和Kucera在美国Brown大学建立了世界上第一个根据系统性原则采集样本的标准语料库——布朗语料库。<br />
　　2.	主要目的是研究当代美国英语<br />
　　3.	按共时原则采集文本的语料库，只选录1961年间由美国人撰写出版的普通语体的文本。<br />
　　4.	规模为100万词次，全部语料分成15种体裁，共500个样本，每个样本不少于2000词次。<br />
　　5.	TAGGIT系统：词类标记81种，正确率达77%<br />
　　6.	语料分A-R共18种类型，A-J属于资讯类语体，K-R属于想象类语体<br />
　　　　　　例：A 报刊：新闻报道；B 报刊：社论…<br />
　　7.	样本通过随机采样方法得到。首先从各类体裁目录中按样本数要求随机选出进入语料库的文本，然后从选出的文本中随机截取不少于2000词次的片断作为样本，采样时要保证最后一个句子是完整的<br />
　　8.	版本：A,B,C,卑尔根I,卑尔根II,布朗MARC<br />
　　9.	布朗语料库从语料库的整体规模，语料的分布和语料的采样上都经过了精心的设计，一致被公认为是一个能反映语言共性的平衡语料库。<br />
d)	近年来的语料库（Recent Corpora）<br />
语料库(Corpus)　规模（Size）　领域（Domain）　语言（Language）<br />
NA News Corpus  600 million   　　newswire　　　American English<br />
British National Corpus 100 million balanced       　　British English<br />
EU proceedings　　20 million　　　legal　　　　　10 language pairs<br />
Penn Treebank　　2 million　　　newswire　　　American English<br />
Broadcast News　　　　　　　　　spoken　　　　7 languages<br />
SwitchBoard　　　2.4 million　　　spoken　　　American English<br />
　ii.	了解更多语料库的信息，请查询语言数据联盟（For more corpora, check the Linguistic Data Consortium）：<br />
　　　　　　<a href="http://www.ldc.upenn.edu/"target="_blank">http://www.ldc.upenn.edu/<br />
</a><br />
e)	语料库内容（Corpus Content）<br />
　i.	类型（Genre）：<br />
　　　– 新闻，小说，广播，会话（newswires, novels, broadcast, spontaneous conversations）<br />
　ii.	媒介（Media）：文本，音频，视频（text, audio, video）<br />
　iii.	标注（Annotations）：tokenization, 句法树（syntactic trees）, 语义（semantic senses）, 翻译（translations）<br />
f)	标注例子（Example of Annotations）: 词性标注（POS Tagging）<br />
　i.	词性标注集对简单的语法功能编码（POS tags encode simple grammatical functions）<br />
　ii.	几个词性标注集(Several tag sets):<br />
　　1.	Penn tag set (45 tags)<br />
　　2.	Brown tag set (87 tags)<br />
　　3.	CLAWS2 tag set (132 tags)<br />
　iii.	举例:<br />
　Category　　　　　　　Example　　　Claws c5　　Brown　　Penn<br />
　Adverb　　　　　　　often, badly　　　AJ0　　　　JJ　　　　JJ<br />
　Noun singular　　　　table, rose　　　　NN1　　　NN　　　　NN<br />
　Noun plural　　　　　tables, roses　　　NN2　　　NN　　　　NN<br />
　Noun proper singular　Boston, Leslie　　NP0　　　NP　　　　NNP<br />
g)	标注中的问题（Issues in Annotations）<br />
　i.	同样的认为不同的标注方案很正常（Different annotation schemes for the same task are common）<br />
　ii.	在某些情况下，方案之间有直接的映射关系；在其他情况下，它们并没有显示出任何关系（In some cases, there is a direct mapping between schemes; in other cases, they do not exhibit any regular relation）<br />
　iii.	标注的选择是由语言，计算和/或任务需要驱动的（Choice of annotation is motivated by the linguistic, the computational and/or the task requirements）</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part/"target="_blank">第四部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第四部分）'>MIT自然语言处理第三讲：概率语言模型（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第三部分）'>MIT自然语言处理第一讲：简介和概述（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第四部分）'>MIT自然语言处理第四讲：标注（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第二部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part#comments</comments>
		<pubDate>Fri, 09 Jan 2009 00:00:57 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[Zipf’s Law]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[省力原则]]></category>
		<category><![CDATA[齐夫定律]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=348</guid>
		<description><![CDATA[自然语言处理：单词计数
Natural Language Processing: (Simple) Word Counting
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年1月9日）
二、	齐夫定律(Zipf’s Law)
a)	在任何一个自然语言里第n个最常用的单词的频率与n近似成反比（The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n）。
b)	齐夫定律表示频率(f)与排名®的关系如下（Zipf’s Law captures the relationship between frequency and rank）：
　　　f #= 1/r（注：这里不能使用公式编辑器，近似表示）
c)	存在一个常量k表示如下（There is a constant k such that）：
　　　f* r = k
d)	汤姆•索耶中的齐夫定律（Zipf’s Law in Tom Sawye）
单词（word） 频率（Freq.(f)） 排名（Rank [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-348"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（www.52nlp.cn ，2009年1月9日）</p>
<p><strong>二、	齐夫定律(Zipf’s Law)</strong><br />
a)	在任何一个自然语言里第n个最常用的单词的频率与n近似成反比（The frequency of use of the nth-most-frequently-used word in any natural language is approximately inversely proportional to n）。<br />
b)	齐夫定律表示频率(f)与排名®的关系如下（Zipf’s Law captures the relationship between frequency and rank）：<br />
　　　f #= 1/r（注：这里不能使用公式编辑器，近似表示）<br />
c)	存在一个常量k表示如下（There is a constant k such that）：<br />
　　　f* r = k<br />
d)	汤姆•索耶中的齐夫定律（Zipf’s Law in Tom Sawye）<br />
单词（word） 频率（Freq.(f)） 排名（Rank (r)） f ∗ r<br />
the　　　　　3332　　　　　　1　　　　　　　　3332<br />
and　　　　　2972　　　　　　2　　　　　　　　5944<br />
a　　　　　　1775　　　　　　3　　　　　　　　5235<br />
he　　　　　  877　　　　　　10 　　　　　　　8770<br />
but　　　　　410　　　　　　 20　　　　　　　 8400<br />
be　　　　　 294　　　　　　 30　　　　　　　 8820<br />
there　　　　222　　　　　　 40　　　　　　　 8880<br />
one　　　　　172　　　　　　50　　　　　　　  8600<br />
about　　　　158　　　　　　60　　　　　　　  9480<br />
never　　　　124　　　　　　80　　　　　　　  9920<br />
Oh　　　　　 116　　　　　　90　　　　　　　  10440<br />
e)	译者注：补充说明——Wiki中的齐夫定律<br />
　i.	从根本上讲, 齐夫定律可以表述为在自然语言的语料库里, 一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。 这个&#8221;定律&#8221;是哈佛大学的语言学家George Kingsley Zipf 发表的。<br />
　ii.	比如，在Brown 语库中，&#8221;the&#8221; 是最常见的单词，它在这个语库中出现了大约7%（10万单词中出现69971次）。正如齐夫定律中所描述的一样，出现次数为第二位的单词&#8221;of&#8221;占了整个语库中的3.5% (36411次), 之后的是&#8221;and&#8221; (28852次)。仅仅 135 个字汇就占了Brown 语库的一半。<br />
　iii.	齐夫定律是一个实验定律，而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察，坐标为log(排名)和log(频率)。比如，&#8221;the&#8221;用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线，那么它就遵循齐夫定律。最简单的齐夫定律的例子是 &#8220;1/f  function&#8221;。给出一组齐夫分布的频率，按照从最常见到非常见排列，第二常见的频率是最常见频率的出现次数的1/2。第三常见的频率是最常见的频率的1/3。 第n常见的频率是最常见频率出现次数的1/n。然而，这并不精确，因为所有的项必须出现一个整数次数，一个单词不可能出现2.5次。然而，在一个广域范围内并且做出适当的近似，许多自然现象都符合齐夫定律。<br />
f)	齐夫定律和省力原则（Zipf’s Law and Principle of Least Effort）<br />
　i.	人类行为和省力原则（Human Behavior and the Principle of Least Effort(Zipf)）：<br />
　　1.	“&#8230; Zipf argues that he found a unifying principle, the Principle of Least Effort, which underlies essentially the entire human condition (the book even includes some questionable remarks on human sexuality!). The principle argues that people will act so as to minimize their probable average rate of work”. (Manning&#038;Schutze, p.23)<br />
　ii.	注：北京大学姜望琪老师的《Zipf与省力原则》讲得很好，部分摘录如下：<br />
　　1.	省力原则(the Principle of Least Effort)，又称经济原则(the Economy Principle)，可以概括为：以最小的代价换取最大的收益。这是指导人类行为的一条根本性原则。在现代学术界，第一个明确提出这条原则的是美国学者 George Kingsley Zipf。<br />
　　2.	George Kingsley Zipf1902年1月出生于一个德裔家庭（其祖父十九世纪中叶移居美国)。1924年，他以优异成绩毕业于哈佛学院。1925年在德国波恩、柏林学习。1929年完成Relative Frequency as a Determinant of Phonetic Change，获得哈佛比较语文学博士学位。然后，他开始在哈佛教授德语。1931年与Joyce Waters Brown结婚。1932年出版Selected Studies of the Principle of Relative Frequency in Language。1935年出版The Psycho- Biology of Language：An Introduction to Dynamic Philology。1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort：An Introduction to Human Ecology。1950年9月因患癌症病逝。<br />
　　3.	Zipf在1949年的书里提出了一条指导人类行为的基本原则——省力原则。Zipf在序言里指出，如果我们把人类行为纯粹看作一种自然现象，如果我们像研究蜜蜂的社会行为、鸟类的筑巢习惯一样研究人类行为，那么，我们就有可能揭示其背后的基本原则。这是他提出“省力原则”的大背景。当Zipf在众多互不相干的现象里都发现类似Zipf定律的规律性以后，他就开始思考造成这种规律性的原因。这是导致他提出“省力原则”的直接因素。在开始正式论证以前，Zipf首先澄清了“省力原则”的字面意义。第一，这是一种平均量。一个人一生要经历很多事情，他在一件事情上的省力可能导致在另一件事情上的费力。反过来，在一件事情上的费力，又可能导致在另一件事情上的省力。第二，这是一种概率。一个人很难在事先百分之百地肯定某种方法一定能让他省力，他只能有一个大概的估计。因为用词研究是理解整个言语过程的关键，而后者又是理解整个人类生态学的关键，他的具体论证从用词经济开始。Zipf认为，用词经济可以从两个角度来讨论：说话人的角度和听话人的角度。从说话人的角度看，用一个词表达所有的意义是最经济的。这样，说话人不需要花费气力去掌握更多的词汇，也不需要考虑如何从一堆词汇中选择一个合适的词。这种“单一词词汇量”就像木工的一种多用工具，集锯刨钻锤于一身，可以满足多种用途。但是，从听话人角度看，这种“单一词词汇量”是最费力的。他要决定这个词在某个特定场合到底是什么意思，而这几乎是不可能的。相反，对听话人来说，最省力的是每个词都只有一个意义，词汇的形式和意义之间完全一一对应。这两种经济原则是互相冲突、互相矛盾的。Zipf把它们叫做一条言语流中的两股对立的力量：“单一化力量”（the Force of Unification）和“多样化力量”（the Force of Diversification）。他认为，这两股力量只有达成妥协，达成一种平衡，才能实现真正的省力。事实正像预计的那样。请看Zipf的论证：假如只有单一化力量，那么任何语篇的单词数量（number）都会是1，而它的出现次数（frequency）会是100%。另一方面，假如只有多样化力量，那么每个单词的出现次数都会接近1，而单词总数量则由语篇的长度决定。这就是说， number和frequency是衡量词汇平衡程度的两个参数。</p>
<p>g)	其他规律（Other laws）：<br />
　i.	词义分布（Word sense distribution）；<br />
　ii.	音位分布（Phonemes distribution）；<br />
　iii.	词共现模式（Word co-occurrence patterns）；<br />
h)	近似服从齐夫定律的例子（Examples of collections approximately obeying Zipf’s law）：<br />
　i.	访问网页的频率（Frequency of accesses to web pages）；<br />
　ii.	居住点的规模（Sizes of settlements）；<br />
　iii.	个人收入的分布（Income distribution amongst individuals）；<br />
　iv.	地震的大小（Size of earthquakes）；<br />
　v.	演奏中的音乐符号（Notes in musical performances）；</p>
<p>未完待续：<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part"target="_blank">第三部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/</p>
<p>注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第二部分）'>MIT自然语言处理第三讲：概率语言模型（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第二部分）'>MIT自然语言处理第四讲：标注（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>MIT自然语言处理第二讲：单词计数（第一部分）</title>
		<link>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part</link>
		<comments>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part#comments</comments>
		<pubDate>Thu, 08 Jan 2009 00:00:59 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[MIT自然语言处理]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[MIT]]></category>
		<category><![CDATA[Zipf’s Law]]></category>
		<category><![CDATA[单词计数]]></category>
		<category><![CDATA[开放式课程]]></category>
		<category><![CDATA[齐夫定律]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=319</guid>
		<description><![CDATA[自然语言处理：单词计数
Natural Language Processing: (Simple) Word Counting
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)
译者：我爱自然语言处理（www.52nlp.cn ，2009年1月8日）

这一讲主要内容（Today):
1、语料库及其性质（Corpora and its properties）；
2、Zipf 法则( Zipf&#8217;s Law )；
3、标注语料库例子（Examples of annotated corpora）；
4、分词算法（Word segmentation algorithm）；

一、	语料库及其性质（Corpora and its properties）：
a)	什么是语料库（Corpora）
　i.	一个语料库就是一份自然发生的语言文本的载体，以机器可读形式存储（A corpus is a body of naturally occurring text, stored in a machine-readable form）；
　ii.	一种平衡语料库尝试在语言或者其他领域具有代表性（A balanced corpus tries to be representative across a language or other domains）；
b)	译者注：平行语料库与平衡语料库的特点与区别
　i.	平行语料库（parallel corpus）通常是由双语或多语的对应语料构成，常常是翻译文本构成。例如：Babel English-Chinese Parallel [...]


相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p><strong>自然语言处理：单词计数</strong><br />
Natural Language Processing: (Simple) Word Counting<span id="more-319"></span><br />
作者：Regina Barzilay（MIT,EECS Department, November 15, 2004)<br />
译者：<a href="http://www.52nlp.cn">我爱自然语言处理</a>（<a href="http://www.52nlp.cn/">www.52nlp.cn</a> ，2009年1月8日）<br />
<strong><br />
这一讲主要内容（Today):</strong><br />
1、语料库及其性质（Corpora and its properties）；<br />
2、Zipf 法则( Zipf&#8217;s Law )；<br />
3、标注语料库例子（Examples of annotated corpora）；<br />
4、分词算法（Word segmentation algorithm）；<br />
<strong><br />
一、	语料库及其性质（Corpora and its properties）：</strong><br />
a)	什么是语料库（Corpora）<br />
　i.	一个语料库就是一份自然发生的语言文本的载体，以机器可读形式存储（A corpus is a body of naturally occurring text, stored in a machine-readable form）；<br />
　ii.	一种平衡语料库尝试在语言或者其他领域具有代表性（A balanced corpus tries to be representative across a language or other domains）；<br />
b)	译者注：平行语料库与平衡语料库的特点与区别<br />
　i.	平行语料库（parallel corpus）通常是由双语或多语的对应语料构成，常常是翻译文本构成。例如：Babel English-Chinese Parallel Corpus。平行语料库常被用做对比和翻译研究之用。<br />
　ii.	平衡语料库（balanced corpus）主要是指其语料的取样上是均衡的，有代表性的。这种语料可以用作得出有关某种语言特性的一般性的结论。例如：Lancaster Corpus of Mandarin Chinese以及Academia Sinica Balanced Corpus of Modern Chinese<br />
c)	单词计数（Word Counts）<br />
　i.	在文本中最常见的单词是哪些（What are the most common words in the text）?<br />
　ii.	在文本中有多少个单词（How many words are there in the text）?<br />
　iii.	在大规模语料库中单词分布的特点是什么（What are the properties of word distribution in large corpora）?<br />
d)	我们以马克吐温的《汤姆•索耶历险记》为例（We will consider Mark Twain’s Tom Sawyer）：<br />
　单词(word)　　频率（Freq)　　用法(Use)<br />
　the　　　　　　3332　　　　　determiner (article)<br />
　and　　　　　　2972　　　　　conjunction<br />
　a　　　　　　　1775　　　　　determiner<br />
　to　　　　　　　1725　　　　　preposition, inf. marker<br />
　of　　　　　　　1440　　　　　preposition<br />
　was　　　　　　1161　　　　　auxiliary verb<br />
　it　　　　　　　1027　　　　　pronoun<br />
　in　　　　　　　906　　　　　preposition<br />
　that　　　　　　877　　　　　complementizer<br />
　Tom　　　　　　678　　　　　proper name<br />
　i.	一些观察结果（Some observations）：<br />
　　1.	虚词占了大多数（Dominance of function words）；<br />
　　2.	语料库依赖的主题词也占了一部分，例如&#8221;Tom&#8221;（Presence of corpus-dependent items (e.g., “Tom”)）<br />
　ii.	思考：是否有可能建立一个真正具有“代表性”的英文样本语料库（Is it possible to create a truly “representative” sample of English）?<br />
e)	这个例句里有多少个单词（How Many Words Are There）：<br />
<em>They picnicked by the pool, then lay back on the grass and looked at the stars.</em><br />
　i.	“型”(Type) ——语料库中不同单词的数目，词典容量（ number of distinct words in a corpus,vocabulary size)<br />
　ii.	“例”(Token) — 语料中总的单词数目（total number of words in a corpus）<br />
　iii.	注：以上定义参考自《自然语言处理综论》<br />
　iv.	汤姆•索耶历险记（Tom Sawyer）中有：<br />
　　1.	词型（word types） — 8, 018<br />
　　2.	词例（word tokens）— 71, 370<br />
　　3.	平均频率（average frequency）— 9（注：词例/词型）<br />
f)	词频的频率（Frequencies of Frequencies）：<br />
　　词频（Word Frequency）　词频的频率(Frequency of Frequency)<br />
　　1　　　　　　　　　　　　　3993<br />
　　2　　　　　　　　　　　　　1292<br />
　　3　　　　　　　　　　　　　664<br />
　　4　　　　　　　　　　　　　410<br />
　　5　　　　　　　　　　　　　243<br />
　　6　　　　　　　　　　　　　199<br />
　　7　　　　　　　　　　　　　172<br />
　　8　　　　　　　　　　　　　131<br />
　　9　　　　　　　　　　　　　82<br />
　　10　　　　　　　　　　　　 91<br />
　　11-50　　　　　　　　　　 540<br />
　　51-100　　　　　　　　　　99<br />
　大多数词在语料库中仅出现一次（Most words in a corpus appear only once）!</p>
<p>未完待续:<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part/"target="_blank">第二部分</a></p>
<p>附：课程及课件pdf下载<a href="http://people.csail.mit.edu/regina/6881/"target="_blank">MIT英文网页</a>地址：<br />
　　　http://people.csail.mit.edu/regina/6881/<br />
注：本文遵照麻省理工学院开放式课程<a href="http://ocw.mit.edu/OcwWeb/web/terms/terms/index.htm"target="_blank">创作共享规范</a>翻译发布，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/">http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第三部分）'>MIT自然语言处理第二讲：单词计数（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第二部分）'>MIT自然语言处理第二讲：单词计数（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-fourth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第四部分）'>MIT自然语言处理第二讲：单词计数（第四部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第一部分）'>MIT自然语言处理第四讲：标注（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第二部分）'>MIT自然语言处理第一讲：简介和概述（第二部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fifth-lesson-maximum-entropy-and-log-linear-models-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）'>MIT自然语言处理第五讲：最大熵和对数线性模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第一部分）'>MIT自然语言处理第三讲：概率语言模型（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-fourth-lesson-tagging-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第四讲：标注（第三部分）'>MIT自然语言处理第四讲：标注（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第一讲：简介和概述（第一部分）'>MIT自然语言处理第一讲：简介和概述（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>BITS架构分析</title>
		<link>http://www.52nlp.cn/bits-structure-analysis</link>
		<comments>http://www.52nlp.cn/bits-structure-analysis#comments</comments>
		<pubDate>Fri, 26 Dec 2008 00:00:14 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[语料库]]></category>
		<category><![CDATA[BITS]]></category>
		<category><![CDATA[bootcat]]></category>
		<category><![CDATA[champollion]]></category>
		<category><![CDATA[LDC]]></category>
		<category><![CDATA[strand]]></category>
		<category><![CDATA[wac]]></category>
		<category><![CDATA[语料库采集]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=121</guid>
		<description><![CDATA[　　晚上读了LDC的语料库自动采集系统（BITS）的论文，感觉其可操作性更大，可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。关于BITS的架构：
　第一部分：搜集资源
　　1.搜寻候选urls，它讲解的不详，可以考虑strand的方法，并且strand已提供了部分双语候选urls数据库，前期可以考虑直接利用这些数据库；
　　2.识别网络语言种类：它使用N-Gram方法训练识别器，不错，可以借鉴；
　　3.网页下载：和strand一样，都是利用wget，而wac和bootcat都有相似的方法，可以考虑直接利用；
　　4.html网页清洗和语言识别：BITS将html转换为纯text格式，linux下有html2text的软件，不过要根据需求进行清洗加工；
　第二部分：寻找翻译对（重点加难点）
　　1.语块识别：利用网页的路径名识别，strand也是利用了这个方法作为初步识别；不过BITS最重要的方法是基于内容的翻译对识别，其实就是利用双语词典，进行相似度计算，算法很简单，真正需要的是训练时间。这个方法的操作性很强，并且从篇章中抽句对齐的方法也可以利用词典，突然感觉基于词典的方法不错！这种方法可以做到初步的篇章，段落，甚至句子对齐。在作者的另一篇文章构建LDC文章中，他又使用了一种Champollion 的句对齐方法，可以参考。
　　2.关于句对齐，经典的是Gale and Church （1991）的基于长度的方法，但是从报告中来看，这种方法对近似语言比较好，对于远距离语言效果不太好，这样利用词典的方法就可以作为一个补充。
　　3.同时发现了一个对齐工具箱：MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练，可以达到语块对齐，句对齐，短语对齐及词对齐的水平。还没试用，但是记住：优秀的程序员写程序，伟大的程序员利用现有的资源。
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：
http://www.52nlp.cn/bits-structure-analysis/










相关文章:MIT自然语言处理第三讲：概率语言模型（第三部分）
统计机器翻译与资源建设思考
不做什么，做什么，为什么——董振东与知网
Moses中模型训练的并行化问题
HMM在自然语言处理中的应用一：词性标注4
MIT自然语言处理第三讲：概率语言模型（第五部分）
Moses训练脚本的一个问题
自然语言处理与机器翻译FAQ
欧洲议会平行语料库介绍
LDC上免费的中文信息处理资源



相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/donot-what-why-dong-zhendong-and-hownet' rel='bookmark' title='Permanent Link: 不做什么，做什么，为什么——董振东与知网'>不做什么，做什么，为什么——董振东与知网</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Permanent Link: Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　晚上读了LDC的语料库自动采集系统（BITS）的论文，感觉其可操作性更大，可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。<span id="more-121"></span>关于BITS的架构：<br />
　<strong>第一部分：搜集资源</strong><br />
　　1.搜寻候选urls，它讲解的不详，可以考虑strand的方法，并且strand已提供了部分双语候选urls数据库，前期可以考虑直接利用这些数据库；<br />
　　2.识别网络语言种类：它使用N-Gram方法训练识别器，不错，可以借鉴；<br />
　　3.网页下载：和strand一样，都是利用wget，而wac和bootcat都有相似的方法，可以考虑直接利用；<br />
　　4.html网页清洗和语言识别：BITS将html转换为纯text格式，linux下有html2text的软件，不过要根据需求进行清洗加工；<br />
　<strong>第二部分：寻找翻译对（重点加难点）</strong><br />
　　1.语块识别：利用网页的路径名识别，strand也是利用了这个方法作为初步识别；不过BITS最重要的方法是基于内容的翻译对识别，其实就是利用双语词典，进行相似度计算，算法很简单，真正需要的是训练时间。这个方法的操作性很强，并且从篇章中抽句对齐的方法也可以利用词典，突然感觉基于词典的方法不错！这种方法可以做到初步的篇章，段落，甚至句子对齐。在作者的另一篇文章构建LDC文章中，他又使用了一种Champollion 的句对齐方法，可以参考。<br />
　　2.关于句对齐，经典的是Gale and Church （1991）的基于长度的方法，但是从报告中来看，这种方法对近似语言比较好，对于远距离语言效果不太好，这样利用词典的方法就可以作为一个补充。<br />
　　3.同时发现了一个对齐工具箱：MTTK: An Alignment Toolkit for Statistical Machine Translation。它从文本对齐开始训练，可以达到语块对齐，句对齐，短语对齐及词对齐的水平。还没试用，但是记住：优秀的程序员写程序，伟大的程序员利用现有的资源。</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<br />
<a href="http://www.52nlp.cn/bits-structure-analysis/">http://www.52nlp.cn/bits-structure-analysis/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-third-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第三部分）'>MIT自然语言处理第三讲：概率语言模型（第三部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking' rel='bookmark' title='Permanent Link: 统计机器翻译与资源建设思考'>统计机器翻译与资源建设思考</a></li>
<li><a href='http://www.52nlp.cn/donot-what-why-dong-zhendong-and-hownet' rel='bookmark' title='Permanent Link: 不做什么，做什么，为什么——董振东与知网'>不做什么，做什么，为什么——董振东与知网</a></li>
<li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/hmm-application-in-natural-language-processing-one-part-of-speech-tagging-4' rel='bookmark' title='Permanent Link: HMM在自然语言处理中的应用一：词性标注4'>HMM在自然语言处理中的应用一：词性标注4</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-fifth-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第三讲：概率语言模型（第五部分）'>MIT自然语言处理第三讲：概率语言模型（第五部分）</a></li>
<li><a href='http://www.52nlp.cn/one-problem-on-moses-training-scripts' rel='bookmark' title='Permanent Link: Moses训练脚本的一个问题'>Moses训练脚本的一个问题</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-machine-translation-faq' rel='bookmark' title='Permanent Link: 自然语言处理与机器翻译FAQ'>自然语言处理与机器翻译FAQ</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc' rel='bookmark' title='Permanent Link: LDC上免费的中文信息处理资源'>LDC上免费的中文信息处理资源</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/bits-structure-analysis/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>统计机器翻译与资源建设思考</title>
		<link>http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking</link>
		<comments>http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking#comments</comments>
		<pubDate>Wed, 24 Dec 2008 00:00:47 +0000</pubDate>
		<dc:creator>52nlp</dc:creator>
				<category><![CDATA[机器翻译]]></category>
		<category><![CDATA[语料库]]></category>
		<category><![CDATA[统计机器翻译]]></category>
		<category><![CDATA[资源建设]]></category>

		<guid isPermaLink="false">http://www.52nlp.cn/?p=109</guid>
		<description><![CDATA[　　统计机器翻译发展到目前为止，我觉得最主要的两个里程碑式的工作应该是：一是Brown等在90、93提出的统计机器翻译框架及其数学基础；二是Och等在2002年提出的基于最大熵模型的统计机器翻译框架。之所以这样说，主要是因为他们为统计机器翻译奠定了良好的理论基础，这使得其他学者可以在这些框架之下进行大量的研究实践工作。但是，在经历了理论提出与相应的快速发展之后，统计机器翻译慢慢步入了“小打小闹”的修补阶段。当前的统计机器翻译一方面无非是在Och等最大熵模型翻译框架基础之上探索加入新的特征以提高机器翻译系统翻译质量，另一方面就是寻找与语言本身特点结合的切入点。如果没有新的理论方法的提出，统计机器翻译似乎要步入举步维艰的阶段。
　　当然，统计机器翻译除了要关注理论方法的创新外，其对资源的依赖尤其是平行语料库的依赖尤为重要。在理论方法暂时无非寻求突破的时候，关注资源的建设尤其是平行语料库的建设是非常有实际价值的。除了借助于传统的人工翻译录入的手段构建平行语料库的方法外，当前的主流语料库构建方法已经纷纷采用Web语料库自动获取技术，毕竟网络世界的欣欣向荣，其所创造的语言资源是异常丰富且日新月异的。在这样的资源宝库下，如果能寻求一种合理的挖掘技术，其所节省的人力、物力、财力是非常可观的！
　　当前的几个主流的Web 平行语料库采集系统有：加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner（Parallel Text Miner，1999），美国马里兰大学的研究者Resnik开发的系统STRAND（Structural Translation Recognition, Acquiring Natural Data，2003）BITS（Bilingual Internet Text Search, Ma and Liberman 1999），澳大利亚莫纳什大学陈纪淞等人开发的PTI（The Parallel Text Identification System，2004），微软亚洲研究院的吴克等人开发的WPDE（Web Parallel Data Extraction，2006）。
　　这些系统一般通过搜索引擎获取候选对齐网页，然后利用相应的分析和对齐技术进行篇章、段落及句子对齐，从而最终获得相对粗糙的句子集的平行语料库。这样的技术对于汉英等主流语言问题不大，因为它可以获得大量的候选对齐网页，这样所产生的实际平行语料库的规模也是可以预期的。但是，对于小语种尤其像国内的少数民族语言，这项技术似乎还只有理论意义，其实践价值不大，毕竟，少数民族语言相对于汉语或英语等来说，其在网络上存在的数据是少之又少的。
　　关于汉语与少数民族语言机器翻译及资源建设的问题，我觉得可以借鉴欧盟的做法。欧盟有23种官方语言，无论制定什么文件，都必须有相应的语言文件，所以欧盟对于语言资源的建设和语言间的机器翻译技术是非常重视的。对于如何评价多语言性重要性问题，他们列举了以下三条原因：
　　首先现在全球社会越来越复杂，让越来越多的个人想要去寻根、寻找他们自己的文化根源，最重要的一点就是他们自己的语言；第二就是欧盟有很多世纪的征战，语言是文化身份和反对外国入侵的一个重要工具；第三个原因就是市场经济的发展，这个使得生产商不得不去进行本地化他们的产品和服务。
　　与欧盟类似，对中国来说，多语言（汉语与少数民族语言）资源的建设与保护问题，上述三条原因完全可以对号入座。但是，与欧盟不同，我们在多语言资源建设上还非常落后。
　　由于欧盟有大量的工作需要翻译，所以对翻译技术的需求非常旺盛。他们除了把欧洲委员会一级和二级法规的所有数据都提供给研究者和软件公司使用外，还在这些数据的基础上建立了世界上最大的平行语料库，并且完全开放供研究者使用，这样一方面促进了机器翻译技术的研究，另一方面可以反过来利用这些好的机器翻译方法，这对于欧盟本身的翻译工作是有极大推进作用的。
　　需要说明的是，欧盟目前所采用的机器翻译技术是建立在海量平行语料库基础之上的翻译记忆技术，而不是纯粹的机器翻译方法，这也从另一方面说明当前比较成功的商业化产品是辅助翻译技术，而纯粹的机器翻译产品还不能应付大量的翻译需求。但是，从欧盟对机器翻译技术的重视以及其对平行语料库构建的支持来看，机器翻译技术必将越来越受到重视与肯定！
　　我们目前对于多语言资源的建设与多语言间的机器翻译技术的支持无疑是非常有限和落后的。对于汉语与少数民族语言间的机器翻译及资源建设问题，我觉得从以下三个方面入手比较合适：第一，以汉语为中间语言，尽快构建一个多语言间的平行语料库，无论采用什么技术和方法构建，资源越大越好；第二，在不能做到大而全的情况下，先重点关注几个重要领域的平行语料库构建，如文化领域、农业领域、政府文献领域，这与国计民生息息相关；第三，加强对多语言间的机器翻译技术的研究的支持，尤其是汉语与少数民族语言间的翻译技术，所面临的问题比较复杂，其所需要的支持力度更大。
　　如以上三个方面可以做到，可以继续学习欧盟的做法，开放资源库供研究者使用，并且在这个资源库的基础之上构建公共的机器翻译平台，为多语言间的平台共享提供合适的机器翻译引擎！
注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn
本文链接地址：http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking/










相关文章:Moses中模型训练的并行化问题
统计机器翻译英雄谱一：Franz Josef Och
欧洲议会平行语料库介绍
EuroMatrix与开放精神
MIT自然语言处理第二讲：单词计数（第一部分）
统计机器翻译文献阅读指南
机器翻译的八大挑战
统计机器翻译中的几篇经典文献
SMT经典再回首之Brown90:远见卓识
自然语言处理与计算语言学书籍汇总之五：机器翻译



相关文章:<ol><li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
</ol>]]></description>
			<content:encoded><![CDATA[<p>　　统计机器翻译发展到目前为止，我觉得最主要的两个里程碑式的工作应该是：一是Brown等在90、93提出的统计机器翻译框架及其数学基础；二是Och等在2002年提出的基于最大熵模型的统计机器翻译框架。<span id="more-109"></span>之所以这样说，主要是因为他们为统计机器翻译奠定了良好的理论基础，这使得其他学者可以在这些框架之下进行大量的研究实践工作。但是，在经历了理论提出与相应的快速发展之后，统计机器翻译慢慢步入了“小打小闹”的修补阶段。当前的统计机器翻译一方面无非是在Och等最大熵模型翻译框架基础之上探索加入新的特征以提高机器翻译系统翻译质量，另一方面就是寻找与语言本身特点结合的切入点。如果没有新的理论方法的提出，统计机器翻译似乎要步入举步维艰的阶段。<br />
　　当然，统计机器翻译除了要关注理论方法的创新外，其对资源的依赖尤其是平行语料库的依赖尤为重要。在理论方法暂时无非寻求突破的时候，关注资源的建设尤其是平行语料库的建设是非常有实际价值的。除了借助于传统的人工翻译录入的手段构建平行语料库的方法外，当前的主流语料库构建方法已经纷纷采用Web语料库自动获取技术，毕竟网络世界的欣欣向荣，其所创造的语言资源是异常丰富且日新月异的。在这样的资源宝库下，如果能寻求一种合理的挖掘技术，其所节省的人力、物力、财力是非常可观的！<br />
　　当前的几个主流的Web 平行语料库采集系统有：加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner（Parallel Text Miner，1999），美国马里兰大学的研究者Resnik开发的系统STRAND（Structural Translation Recognition, Acquiring Natural Data，2003）BITS（Bilingual Internet Text Search, Ma and Liberman 1999），澳大利亚莫纳什大学陈纪淞等人开发的PTI（The Parallel Text Identification System，2004），微软亚洲研究院的吴克等人开发的WPDE（Web Parallel Data Extraction，2006）。<br />
　　这些系统一般通过搜索引擎获取候选对齐网页，然后利用相应的分析和对齐技术进行篇章、段落及句子对齐，从而最终获得相对粗糙的句子集的平行语料库。这样的技术对于汉英等主流语言问题不大，因为它可以获得大量的候选对齐网页，这样所产生的实际平行语料库的规模也是可以预期的。但是，对于小语种尤其像国内的少数民族语言，这项技术似乎还只有理论意义，其实践价值不大，毕竟，少数民族语言相对于汉语或英语等来说，其在网络上存在的数据是少之又少的。<br />
　　关于汉语与少数民族语言机器翻译及资源建设的问题，我觉得可以借鉴欧盟的做法。欧盟有23种官方语言，无论制定什么文件，都必须有相应的语言文件，所以欧盟对于语言资源的建设和语言间的机器翻译技术是非常重视的。对于如何评价多语言性重要性问题，他们列举了以下三条原因：<br />
　　首先现在全球社会越来越复杂，让越来越多的个人想要去寻根、寻找他们自己的文化根源，最重要的一点就是他们自己的语言；第二就是欧盟有很多世纪的征战，语言是文化身份和反对外国入侵的一个重要工具；第三个原因就是市场经济的发展，这个使得生产商不得不去进行本地化他们的产品和服务。<br />
　　与欧盟类似，对中国来说，多语言（汉语与少数民族语言）资源的建设与保护问题，上述三条原因完全可以对号入座。但是，与欧盟不同，我们在多语言资源建设上还非常落后。<br />
　　由于欧盟有大量的工作需要翻译，所以对翻译技术的需求非常旺盛。他们除了把欧洲委员会一级和二级法规的所有数据都提供给研究者和软件公司使用外，还在这些数据的基础上建立了世界上最大的平行语料库，并且完全开放供研究者使用，这样一方面促进了机器翻译技术的研究，另一方面可以反过来利用这些好的机器翻译方法，这对于欧盟本身的翻译工作是有极大推进作用的。<br />
　　需要说明的是，欧盟目前所采用的机器翻译技术是建立在海量平行语料库基础之上的翻译记忆技术，而不是纯粹的机器翻译方法，这也从另一方面说明当前比较成功的商业化产品是辅助翻译技术，而纯粹的机器翻译产品还不能应付大量的翻译需求。但是，从欧盟对机器翻译技术的重视以及其对平行语料库构建的支持来看，机器翻译技术必将越来越受到重视与肯定！<br />
　　我们目前对于多语言资源的建设与多语言间的机器翻译技术的支持无疑是非常有限和落后的。对于汉语与少数民族语言间的机器翻译及资源建设问题，我觉得从以下三个方面入手比较合适：第一，以汉语为中间语言，尽快构建一个多语言间的平行语料库，无论采用什么技术和方法构建，资源越大越好；第二，在不能做到大而全的情况下，先重点关注几个重要领域的平行语料库构建，如文化领域、农业领域、政府文献领域，这与国计民生息息相关；第三，加强对多语言间的机器翻译技术的研究的支持，尤其是汉语与少数民族语言间的翻译技术，所面临的问题比较复杂，其所需要的支持力度更大。<br />
　　如以上三个方面可以做到，可以继续学习欧盟的做法，开放资源库供研究者使用，并且在这个资源库的基础之上构建公共的机器翻译平台，为多语言间的平台共享提供合适的机器翻译引擎！</p>
<p>注：原创文章，转载请注明出处“<a href="http://www.52nlp.cn">我爱自然语言处理</a>”：<a href="http://www.52nlp.cn">www.52nlp.cn</a></p>
<p>本文链接地址：<a href="http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking/">http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking/</a></p>
<p>
<!-- Begin Google Adsense code -->
<script type="text/javascript"><!--
google_ad_client = "pub-4332174469367599";
/* 336x280, 创建于 09-2-7 */
google_ad_slot = "5707022987";
google_ad_width = 336;
google_ad_height = 280;
//-->
</script>
<script type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>
<!-- End Google Adsense code -->
</p>


<p>相关文章:<ol><li><a href='http://www.52nlp.cn/the-issue-of-parallel-in-moses-model-training' rel='bookmark' title='Permanent Link: Moses中模型训练的并行化问题'>Moses中模型训练的并行化问题</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-heroe-franz-josef-och' rel='bookmark' title='Permanent Link: 统计机器翻译英雄谱一：Franz Josef Och'>统计机器翻译英雄谱一：Franz Josef Och</a></li>
<li><a href='http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce' rel='bookmark' title='Permanent Link: 欧洲议会平行语料库介绍'>欧洲议会平行语料库介绍</a></li>
<li><a href='http://www.52nlp.cn/euromatrix-and-spirit-of-openness' rel='bookmark' title='Permanent Link: EuroMatrix与开放精神'>EuroMatrix与开放精神</a></li>
<li><a href='http://www.52nlp.cn/mit-nlp-second-lesson-word-counting-first-part' rel='bookmark' title='Permanent Link: MIT自然语言处理第二讲：单词计数（第一部分）'>MIT自然语言处理第二讲：单词计数（第一部分）</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-tutorial-reading' rel='bookmark' title='Permanent Link: 统计机器翻译文献阅读指南'>统计机器翻译文献阅读指南</a></li>
<li><a href='http://www.52nlp.cn/the-eight-major-challenges-of-machine-translation' rel='bookmark' title='Permanent Link: 机器翻译的八大挑战'>机器翻译的八大挑战</a></li>
<li><a href='http://www.52nlp.cn/statistical-machine-translation-classic-literature' rel='bookmark' title='Permanent Link: 统计机器翻译中的几篇经典文献'>统计机器翻译中的几篇经典文献</a></li>
<li><a href='http://www.52nlp.cn/the-foresight-of-smt-classic-brown90' rel='bookmark' title='Permanent Link: SMT经典再回首之Brown90:远见卓识'>SMT经典再回首之Brown90:远见卓识</a></li>
<li><a href='http://www.52nlp.cn/natural-language-processing-and-computational-linguistics-books-summary-five-machine-translation' rel='bookmark' title='Permanent Link: 自然语言处理与计算语言学书籍汇总之五：机器翻译'>自然语言处理与计算语言学书籍汇总之五：机器翻译</a></li>
</ol></p>]]></content:encoded>
			<wfw:commentRss>http://www.52nlp.cn/statistical-machine-translation-and-resources-building-thinking/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
	</channel>
</rss>
