作者归档:finallyliuyu

NLP资源共享盛宴

Deep Learning Specialization on Coursera

“科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.datatang.com/member/5878

该专区主要包括以下几部分资源:

1.面向计算机学科内学术共同体相关研究的中文DBLP资源

2.面向人物同名消歧研究的的中文DBLP资源

3.万篇随机抽取论文中文DBLP资源

4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源

5.面向文本分类研究的中英文新闻分类语料

6.文本分类程序(含开源代码)

7.面向汉语姓名构词研究的10万中文人名语料库

8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型

9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型

欢迎自动化学科数字化知识服务网络平台:http://autoinnovation.ia.ac.cn

欢迎大家继续关注自动化学科创新方法课题,我们的联系方式

http://weibo.com/autoinnovation

欢迎大家关注数据堂: http://weibo.com/datatang

祝大家新春快乐,龙年如意!

欢迎大家试用信息学科数字化知识服务网络平台

Deep Learning Specialization on Coursera

 

各位同学、老师、网友,大家好,由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是:http://autoinnovation.ia.ac.cn/,欢迎大家使用,并且给我们提出意见和建议。

     下面是平台使用过程中的几点注意事项:(1)初次使用时,如果您的浏览器没有安装silverlight插件,请您按提示下载安装该插件;(2)如果您在使用中遇到一些小问题,可以查看网站的帮助文件3该平台框架实际为数据库检索系统,因此您输入检索词后,需要等待下拉菜单出现相应检索词,选中相应检索词,之后在点击搜索按钮,如下图所示

  

  1 检索说明示意图

   平台旨在挖掘、分析和展现我国自动化领域(包括部分计算机、通信的交叉领域)自1960年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景,对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等,做了全方位的关联分析。为了更好地展现知识,我们在精心设计页面布局的基础上,使用了SilverlightAjax等技术进行网站开发;为了让展现出来的知识更加精确,我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。

该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发,我们都本着精益求精的原则,团队内部经过多次尝试和试验,力求选择最佳方案。但是作为一个人员有限的开发团队,我们的思虑与广博的群体智慧相比还是有所逊色的。为此,我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议,您的意见和建议将是敦促我们进步和改进的最给力的源泉!

我们的联系方式是:

email: y.liu@ia.ac.cn

 新浪微博:http://weibo.com/autoinnovation

                 http://weibo.com/finallyly

如果您觉得方便,可以留下您的姓名和单位,我们将在我们的网站进行致谢!

数据共享计划:

同时,我们将与数据堂展开合作,开源部自然语言处理相关资源,期待大家的关注。欢迎大家就NLP资源的需求问题,以及文本挖掘的技术问题互相交流和探讨。

 

 

 

公布一批中文文本分类的新闻语料库

Deep Learning Specialization on Coursera

注:博文转载、语料库使用,请注明提供者、来源以及空间提供方。

免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。

感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。

语料库下载地址:http://download.cnblogs.com/finallyliuyu/corpus.rar

语料素材来源:      凤凰新闻中心、网易新闻中心、腾讯新闻中心、新浪新闻中心。

语料库整理提供者:  finallyliuyu 

语料库空间提供方: 博客园(无偿提供)

说明:

1、此语料库非职务作品,由本人在业余时间搜集整理,免费提供给对NLP狂热的业余爱好者学习研究使用;本人是自然语言处理的业余爱好者,在类别定义等方面都可能存在一些欠缺,欢迎大家提出宝贵意见和建议;

2、下载地址提供的是MS SQL2000数据库的备份文件。使用此数据库,您需要安装 MS SQL2000 server,然后将corpus.rar解压并还原。压缩包大小为54.8M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;

3、需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。

4、有关语料库的其他情况,请参考《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》

我本人在此语料库做过的验证性实验有:《KL语义距离计算系列》 ,《Kmeans聚类系列以及《文本分类和特征词选择系列》。

感谢DUDU在博客园无偿帮忙提供空间;也感谢博客园团队。衷心祝愿你们越办越好!