欧洲议会平行语料库介绍

  平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。

  欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的,包括11个欧洲语言的版本:包括拉丁语系的4种语言(法语,意大利语,西班牙语,葡萄牙语),日耳曼语系的5种语言(英语,荷兰语,德语,丹麦语,瑞典语)以及其他两种语言
  欧洲语料库第三版数据情况如下:
  1、总的可供使用或下载的资源(包括文本文件、预处理工具及句对齐工具)为783MB,以英语为中间语言,具体如下:
  • 丹麦语-英语(Danish-English)平行语料库,126MB, 04/1996-10/2006 ;
  • 德语-英语(German-English)平行语料库, 136 MB, 04/1996-10/2006;
  • 希腊语-英语(Greek-English)平行语料库,82MB,04/1996-10/2006 ;
  • 西班牙语-英语(Spanish-English),130 MB, 04/1996-10/2006 ;
  • 芬兰语-英语(Finnish-English)平行语料库,124 MB, 01/1997-10/2006 ;
  • 法语-英语(French-English)平行语料库,136MB,04/1996-10/2006 ;
  • 意大利语-英语(Italian-English)平行语料库,130 MB, 04/1996-10/2006 ;
  • 荷兰语-英语(Dutch-English)平行语料库,133 MB, 04/1996-10/2006
  • 葡萄牙语-英语(Portuguese-English)平行语料库,132MB,04/1996-10/2006 ;
  • 瑞典语-英语(Swedish-English)平行语料库,114 MB, 01/1997-10/2006 ;

  2、语料库规模:
A、在tokenizing和去除XML标记之后的单语语料库规模数据如下:
语言         句子数         单词数
丹麦语(Danish)   1,563,012       37,467,445
德语(German)    1,517,987       37,614,344
希腊语(Greek)    962,820        26,306,875
英语(English)    1,461,429       39,618,240
西班牙语(Spanish)  1,476,106       41,408,300
芬兰语(Finnish)   1,407,544       26,413,278
法语(French)    1,487,459       44,688,872
意大利语(Italian)  1,405,282       39,504,158
荷兰语(Dutch)    1,616,104       39,778,617
葡萄牙语(Portuguese) 1,441,203       40,862,310
瑞典语(Swedish)   1,475,195       33,407,005
注:单语语料库主要用于统计机器翻译(SMT)中语言模型的训练。

B、在句对齐,tokenizing和去除XML标记之后的双语平行语料库规模数据如下:
平行语料库(语言1-语言2)  对齐句子数  语言1单词数  语言2单词数
丹麦语-英语(Danish-English) 1,304,947 34,169,707 36,225,880
德语-英语(German-English) 1,313,096 34,700,362 36,663,083
希腊语-英语(Greek-English) 662,090 18,834,758 18,827,241
西班牙语-英语(Spanish-English) 1,304,116 37,870,751 36,429,274
芬兰语-英语(Finnish-English) 1,257,720 24,895,790 34,802,617
法语-英语(French-English) 1,334,080 41,573,117 37,436,222
意大利语-英语(Italian-English) 1,251,315 36,411,166 36,510,033
荷兰语-英语(Dutch-English) 1,326,412 36,784,168 36,690,392
葡萄牙语-英语(Portuguese-English)1,287,757 37,342,426 36,355,907
瑞典语-英语(Swedish-English) 1,164,536 28,882,142 32,053,628
注:平行语料库主要用于统计机器翻译(SMT)中翻译模型的训练。

C、用于SMT测试集和开发集的规模对应每种语言对均为2000句对。

  欧洲平行语料库第三版由Cameron Shaw Fordyce (意大利CELCT), Josh Schroede和 Philipp Koehn (二人均属于英国爱丁堡大学 )主持,由欧洲委员会资助的EuroMatrix项目支持。

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:http://www.52nlp.cn/european-parliament-proceedings-parallel-corpus-introduce/

此条目发表在机器翻译, 语料库分类目录,贴了, , , , , , 标签。将固定链接加入收藏夹。

欧洲议会平行语料库介绍》有 6 条评论

  1. finallyliuyu说:

    我自己整理的一个中午新闻分类语料库,已经上传提供给和我一样对NLP狂热的业余爱好者下载。详情见
    http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html

    这个语料库和搜狗分类新闻语料库比起来,确实谈不上标准,但是可以做些小实验玩玩之类的。

    [回复]

  2. finallyliuyu说:

    中文新闻,抱歉

    [回复]

    52nlp 回复:

    多谢,计划在这里做一次推介,呵呵!

    [回复]

    finallyliuyu 回复:

    谢谢支持,真的不用做什么推介,添个链接就好了。因为这份语料确实在分类组织和性能上和搜狗实验室的有很大的差距。但是还是有一点用处吧。最起码可以帮忙丰富下互联网上的免费资源,对搜狗实验室的开放资料做些补充,能有一点点用处,我就觉得欣慰了。同时把这些资料公布出来,也希望就网页正文提取技术,文本分类等方面多和网友交流。我是一个业余的“研究者”,平时做的工程相对多一些,论文看得比较少,如果网友能推荐相关的论文,会非常高兴。

    顺便赞一下博主,博主整理的分词资料,最大熵方面的论文,条件随机场方面的论文,以及NLP和数理统计方面推荐的书籍,确实很受用,我自己也看了一些泥的推荐:)

    [回复]

  3. finallyliuyu说:

    不好意思,还得在这灌一下水。把语料库的大致情况说一下,也方便大家根据自己的需求决定是否下载:
    中文新闻文本分类语料库资源已经上传到博客园,网友可以自由下载。

    希望这批语料能够作为搜狗开放语料库的补充,仅供网友学习研究交流使用,禁止任何商业用途。

    说明:此语料库共有新闻39247篇,和搜狗语料库新闻相比,该语料库的新闻以长新闻为主。
    分为 历史,军事,文化,读书,教育,IT,娱乐,社会与法 八个类别。
    新闻来源于 凤凰,网易,新浪,腾讯的若干个版面。
    下载地址及免责声明,语料库内部格式等详细说明见http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html

    [回复]

    52nlp 回复:

    抱歉迟复,已经将链接加到“资源”页面了。
    这段时间有点忙,过几天我可能会整理一篇相关的文章,谢谢。

    [回复]

发表评论

电子邮件地址不会被公开。 必填项已用*标注