NLP资源共享盛宴

“科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.datatang.com/member/5878

该专区主要包括以下几部分资源:

1.面向计算机学科内学术共同体相关研究的中文DBLP资源

2.面向人物同名消歧研究的的中文DBLP资源

3.万篇随机抽取论文中文DBLP资源

4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源

5.面向文本分类研究的中英文新闻分类语料

6.文本分类程序(含开源代码)

7.面向汉语姓名构词研究的10万中文人名语料库

8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型

9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型

欢迎自动化学科数字化知识服务网络平台:http://autoinnovation.ia.ac.cn

欢迎大家继续关注自动化学科创新方法课题,我们的联系方式

http://weibo.com/autoinnovation

欢迎大家关注数据堂: http://weibo.com/datatang

祝大家新春快乐,龙年如意!

此条目发表在语料库分类目录。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注