12 月 11, 2010 #文本分类, #新闻语料

注：博文转载、语料库使用，请注明提供者、来源以及空间提供方。

免责声明：此语料库仅供自然语言处理的业余爱好者研究和交流，禁止用于任何商业用途（包括在资源内部链接广告等行为）。

感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有，任何人未经上述公司允许不得抄袭。

语料库下载地址：http://download.cnblogs.com/finallyliuyu/corpus.rar

语料素材来源：　凤凰新闻中心、网易新闻中心、腾讯新闻中心、新浪新闻中心。

语料库整理提供者： finallyliuyu

语料库空间提供方：博客园（无偿提供）

说明：

1、此语料库非职务作品，由本人在业余时间搜集整理，免费提供给对NLP狂热的业余爱好者学习研究使用；本人是自然语言处理的业余爱好者，在类别定义等方面都可能存在一些欠缺，欢迎大家提出宝贵意见和建议；

2、下载地址提供的是MS SQL2000数据库的备份文件。使用此数据库，您需要安装 MS SQL2000 server，然后将corpus.rar解压并还原。压缩包大小为54.8M，共包含39247篇新闻，分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网，IT类的新闻全部来自tech.qq，教育类的新闻来自edu.qq，娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面；

3、需要特别注意的是，有的新闻在开头处有大量空白，因此在查询数据库ArticleText字段中有大片空白的，不是空新闻，是整个新闻体截断显示的缘故。

4、有关语料库的其他情况，请参考《献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之一》。

我本人在此语料库做过的验证性实验有：《KL语义距离计算系列》，《Kmeans聚类系列》以及《文本分类和特征词选择系列》。

感谢DUDU在博客园无偿帮忙提供空间；也感谢博客园团队。衷心祝愿你们越办越好！

作者 finallyliuyu

智能问答语料库

❤️Emotional First Aid Dataset, 心理咨询问答语料库

4 月 23, 2020 hain

自然语言处理词典语料库

风云三尺剑，花鸟一床书---对联数据集和自动对联机器人

1 月 8, 2019 52nlp

《公布一批中文文本分类的新闻语料库》有20条评论

finallyliuyu说道：

2010年12月11号 21:10

不好意思哈，我没找到在哪里调字体，汗，有点乱

[回复]
52nlp 回复:
11 12 月, 2010 at 22:34
非常感谢！可以用html的编辑模式，把那些标签去掉！

[回复]
52nlp 回复:
11 12 月, 2010 at 23:02
我帮你调整了一下，不知道是否合适！按说不应该这样做得，呵呵！

[回复]
finallyliuyu 回复:
12 12 月, 2010 at 09:26
太感谢了：）

[回复]
cat@newsmth说道：

2010年12月11号 22:26

赞！看到你的实验，就知道你是整 edit distance的那个id了

[回复]
“我爱自然语言处理”两周岁 | 我爱自然语言处理说道：

2010年12月23号 15:21

[...] 1、boycat：为52nlp转型为群体博客提出了最宝贵的建议和最直接的贡献-第一砖，混在NLP 2、finallyliuyu：在52nlp转型为群体博客后，贡献了第一篇博文-公布一批中文文本分类的新闻语料库 3、王增才：基于哈希表和二叉树的词典研究 [...]
aaa说道：

2010年12月30号 17:06

又看见你的博客了

[回复]
mededitor说道：

2011年01月17号 09:09

赞，这么好的资料，借用了

[回复]
余镇源说道：

2013年10月18号 10:30

刚刚看到，博主是否有普通文本的语料呢。。

[回复]
fasdf说道：

2015年11月1号 15:58

。。。。

[回复]
Cathy1272015说道：

2016年03月15号 15:06

博主，您好，想问一下汉语有没有类似wordsim353的评测集？

[回复]
yuquanle 回复:
29 3 月, 2017 at 14:22
我找到了一个https://github.com/Leonard-Xu/CWE，清华大学刘知远老师的论文。

[回复]
yuquanle说道：

2017年03月29号 14:23

博主，这个语料库下载下来用编辑器打开为什么是乱码呢~

[回复]
52nlp 回复:
29 3 月, 2017 at 15:52
编码问题？

[回复]
传奇实体110说道：

2018年04月26号 18:17

攒谢谢分享，能直接导出到txt 格式吗？

[回复]
VV说道：

2018年05月12号 20:35

博主您好这个下载下来如何打开呀...

[回复]
Allen说道：

2018年09月7号 14:58

太崩溃了，导出成SQL也好啊。

[回复]
小米说道：

2019年03月22号 16:53

请问这个语料可以拿来做学术研究，并用于学术文献发表吗，谢谢

[回复]
52nlp 回复:
22 3 月, 2019 at 18:21
这个语料已经好多年了，作者贡献的比较早，应该是可以的

[回复]
lauqasim说道：

2019年07月6号 14:56

这个语料怎么解析呀，打开是乱码

[回复]

公布一批中文文本分类的新闻语料库

作者finallyliuyu

作者 finallyliuyu

相关文章

❤️Emotional First Aid Dataset, 心理咨询问答语料库

推荐一份中文数据，再试试汉字、词语、成语、歇后语在线检索

风云三尺剑，花鸟一床书---对联数据集和自动对联机器人

《公布一批中文文本分类的新闻语料库》有20条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者finallyliuyu

相关文章：

作者 finallyliuyu

相关文章

《公布一批中文文本分类的新闻语料库》有20条评论

发表回复

You missed