作者归档:finallyliuyu

NLP资源共享盛宴

“科技创新,方法先行”。为响应科技部“十二五”关于加强科技资源共享的号召,中科院自动化所“自动化学科创新思想与科学方法研究(课题编号:2009IM020300)”课题 与国内专业的科研数据共享平台-数据堂 网站展开全面合作,将自动化学科数字化知服务网络平台的部分后台数据,以及项目中的一些其他数据资源,免费提供给自然语言处理等相关领域同仁从事科研使用。数据专区地址是:http://www.datatang.com/member/5878。如您论文或项目使用该专区数据,请注明数据来自“自动化学科创新思想与科学方法研究”课题,编号2009IM020300,以及数据堂数据地址http://www.datatang.com/member/5878。 该专区主要包括以下几部分资源: 1.面向计算机学科内学术共同体相关研究的中文DBLP资源 2.面向人物同名消歧研究的的中文DBLP资源 3.万篇随机抽取论文中文DBLP资源 4.以自然语言处理领域中文期刊论文为主导的中文DBLP资源 5.面向文本分类研究的中英文新闻分类语料 6.文本分类程序(含开源代码) 7.面向汉语姓名构词研究的10万中文人名语料库 8.以IG卡方等特征词选择方法生成的多维度ARFF格式英文VSM模型 9.以IG卡方等特征词选择方法生成的多维度ARFF格式中文VSM模型 欢迎自动化学科数字化知识服务网络平台:http://autoinnovation.ia.ac.cn 欢迎大家继续关注自动化学科创新方法课题,我们的联系方式 http://weibo.com/autoinnovation, 欢迎大家关注数据堂: http://weibo.com/datatang 祝大家新春快乐,龙年如意!

发表在 语料库 | 留下评论

欢迎大家试用信息学科数字化知识服务网络平台

  各位同学、老师、网友,大家好,由中科院自动化所综合信息中心承担、国家科技部支持的自动化学科数字化知识服务网络平台已经上线。网站地址是:http://autoinnovation.ia.ac.cn/,欢迎大家使用,并且给我们提出意见和建议。      下面是平台使用过程中的几点注意事项:(1)初次使用时,如果您的浏览器没有安装silverlight插件,请您按提示下载安装该插件;(2)如果您在使用中遇到一些小问题,可以查看网站的帮助文件;(3)该平台框架实际为数据库检索系统,因此您输入检索词后,需要等待下拉菜单出现相应检索词,选中相应检索词,之后在点击搜索按钮,如下图所示     图 1 检索说明示意图    平台旨在挖掘、分析和展现我国自动化领域(包括部分计算机、通信的交叉领域)自1960年以来的学术发展情况。我们力求展现出国内自动化领域学术活动的立体全景,对领域内的文献、学者、机构、以及研究方向、方法、理论和工具等,做了全方位的关联分析。为了更好地展现知识,我们在精心设计页面布局的基础上,使用了Silverlight、Ajax等技术进行网站开发;为了让展现出来的知识更加精确,我们在数据处理中使用了包括命名实体识别与排歧、文本聚类在内的多种数据挖掘技术。 该平台凝结了综合信息中心的老师、开发人员、以及多位学生的大量心血。无论是在前期设计、后台数据处理、还是前台网站开发,我们都本着精益求精的原则,团队内部经过多次尝试和试验,力求选择最佳方案。但是作为一个人员有限的开发团队,我们的思虑与广博的群体智慧相比还是有所逊色的。为此,我们热诚地欢迎各位老师、同学、工作人员向我们提出您宝贵的建议。我们欢迎大家从各个层面给我们提出意见和建议,您的意见和建议将是敦促我们进步和改进的最给力的源泉! 我们的联系方式是: email: y.liu@ia.ac.cn  新浪微博:http://weibo.com/autoinnovation                  http://weibo.com/finallyly 如果您觉得方便,可以留下您的姓名和单位,我们将在我们的网站进行致谢! 数据共享计划: 同时,我们将与数据堂展开合作,开源部自然语言处理相关资源,期待大家的关注。欢迎大家就NLP资源的需求问题,以及文本挖掘的技术问题互相交流和探讨。      

发表在 中文信息处理 | 6 条评论

公布一批中文文本分类的新闻语料库

提供一批文本分类的新闻语料库,供NLP业余爱好者下载 继续阅读

发表在 文本分类, 语料库 | 标签为 , | 8 条评论