分类目录归档:语料库

NLP资源共享盛宴

“科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.datatang.com/member/5878。 该专区主要包括以下几部分资源: 1.面向计算机学科内学术共同体相关研究的中文DBLP资源 2.面向人物同名消歧研究的的中文DBLP资源 3.万篇随机抽取论文中文DBLP资源 4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源 5.面向文本分类研究的中英文新闻分类语料 6.文本分类程序(含开源代码) 7.面向汉语姓名构词研究的10万中文人名语料库 8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型 9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型 欢迎自动化学科数字化知识服务网络平台:http://autoinnovation.ia.ac.cn 欢迎大家继续关注自动化学科创新方法课题,我们的联系方式 http://weibo.com/autoinnovation, 欢迎大家关注数据堂: http://weibo.com/datatang 祝大家新春快乐,龙年如意!

发表在 语料库 | 留下评论

请求捐赠短信,为短信语料库的创建出一份力

大家好: 我们是来自新加坡国立大学计算机学院的研究人员。我们在6年前收集过英文短信,之后发布了10,000条英文短信的语料库,供研究人员免费使用。 目前我们重新启动了短信收集项目,扩展已有的英文短信,同时还为了创建中文短信库。该项目通过了新加坡国立大学学术委员会的审查。目前我们收集到 15,111条中文短信,语料库已经发布。详情见http://wing.comp.nus.edu.sg:8080/SMSCorpus/。 短信属于隐私数据,收集十分不易。目前在学术领域,公开的短信数据库非常稀少。我们发这个帖子的目的,是让更多的人了解我们的工作,宣传我们的语料库,更重要地是希望你能够帮助语料库的创建。 希望大家能够捐赠一些自己的短信!为短信研究贡献自己的一份力量!捐赠短信的详细方法见项目主页(http://wing.comp.nus.edu.sg:8080/SMSCorpus/)的短信捐赠页面。在存入数据库前,我们会对收集到的短信做相应的处理,保护捐献者的隐私。 感谢大家!

发表在 语料库 | 标签为 , , | 6 条评论

公布一批中文文本分类的新闻语料库

提供一批文本分类的新闻语料库,供NLP业余爱好者下载 继续阅读

发表在 文本分类, 语料库 | 标签为 , | 8 条评论

微软:Web N-gram Services

  微软研究院的官方网站上近期发布了一篇文章:“Microsoft Web N-gram Services“,大意是邀请整个社区使用其提供的”Web N-gram services”,这个服务旨在通过基于云的存储平台,推动网络搜索,自然语言处理,语音技术等相关领域,在研究现实世界的大规模网络数据时,利用该服务所提供动态数据对项目中的常规数据进行补充更新,进而有所发现和创新。

发表在 语料库, 语言模型 | 标签为 , , , , , , , | 9 条评论

欧洲议会平行语料库介绍

  平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。

发表在 机器翻译, 语料库 | 标签为 , , , , , , | 6 条评论

EuroMatrix与开放精神

  打开SMT官网主页下的这个页面:http://www.statmt.org/matrix/,会发现一个漂亮的“欧洲矩阵(Euro Matrix)”,这是一个由11*11小方块组成的矩阵:在其对角线上,有欧洲11个国家的名字和国旗;而对角线之外的小方块里,则是机器翻译里的BIEU评分。这个矩阵图展示了欧盟11个国家官方语言间的110种翻译结果的BLEU评分值,而这幅图的背后,则是宏伟的EuroMatrix工程!

发表在 机器翻译, 语料库 | 标签为 , , , , , | 留下评论

MIT自然语言处理第二讲:单词计数(第三部分)

自然语言处理:单词计数 Natural Language Processing: (Simple) Word Counting

发表在 MIT自然语言处理, 自然语言处理, 语料库 | 标签为 , , , , | 2 条评论

MIT自然语言处理第二讲:单词计数(第二部分)

自然语言处理:单词计数 Natural Language Processing: (Simple) Word Counting

发表在 MIT自然语言处理, 自然语言处理, 语料库 | 标签为 , , , , , , , | 留下评论

MIT自然语言处理第二讲:单词计数(第一部分)

自然语言处理:单词计数 Natural Language Processing: (Simple) Word Counting

发表在 MIT自然语言处理, 自然语言处理, 语料库 | 标签为 , , , , , , | 留下评论

BITS架构分析

  晚上读了LDC的语料库自动采集系统(BITS)的论文,感觉其可操作性更大,可以考虑结合Strand的框架设计一个语料库收集工具的新的架构。

发表在 语料库 | 标签为 , , , , , , | 留下评论