LDC上免费的中文信息处理资源

　　著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办，由美国宾夕法尼亚大学主办，拥有众多的优质语言资源，对于自然语言处理及计算语言学的研究者来说，算得上是一座语言资源的金矿。不过其实行会员制，绝大部分语言资源需要收取一定费用，但是对于会员来说，费用相对低廉一些，因此世界上的许多大学及科研机构都是其会员，国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。
　　对于中文信息处理来说，LDC上有一个专门的页面予以了介绍，难能宝贵的是，在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用，以下简单列出其所包括的资源：

1、汉字及其相应拼音表示的对应表：
　　包括了7809个条目的汉字及其相应的拼音表示，一些汉字对应了不止一个拼音，即多音字，内容示例如下：
　　　　啊 a1
　　　　啊 a2
　　　　啊 a3
　　　　啊 a4
　　　　啊 a5
　　　　阿 a1
　　　　阿 a5
　　　　阿 e1
　　　　…

2、汉英平行对应词表：
　　包括了汉英及英汉双向的对应词条，分别有1.0和2.0版本，汉英词条内容示例如下：
　　啊 /(interj.)/ah/an interjection/.../
　　啊呀 /oh/
　　阿 /an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/
　　阿巴丹 /Abadan /
　　阿贝马马环礁 /Abemama Atoll/
　　阿贝歇 /Abechar/
　　阿比让 /Abidjan/
　　阿比西尼亚 /Abyssinia/
　　阿比西尼亚人 /Abyssinian (person)/
　　…

3、中文分词工具：
　　一个perl脚本写得中文分词工具（288行），打包文件中包含了一个有频率统计的词表（很有用的一个中文分词资源），共计44405条，内容示例如下：
　　　　214048 的 di4
　　　　214048 的 de5
　　　　70872 了 liao3
　　　　70872 了 le5
　　　　61364 我 wo3
　　　　58407 在 zai4
　　　　57385 是 shi4
　　　　56756 一 yi1
　　　　…

4、香港法律汉英双语平行语料库：
　　SGML格式，共计238271句对，一个不错的统计机器翻译实验资源。英文语料部分内容示例如下：
　　<s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard thereto, to define terms and expressions used in laws and public documents, to make general provision with regard to public officers, public contracts and civil and criminal proceedings and for purposes and for matters incidental thereto or connected therewith.
　　<s id=2> [31 December 1966] L.N. 88 of 1966
　　<s id=3> PART I
　　<s id=4> SHORT TITLE AND APPLICATION
　　<s id=5> This Ordinance may be cited as the Interpretation and General Clauses
　　….

　　详细的情况读者可以在LDC上关于中文信息处理的页面查看：
　　　　　http://projects.ldc.upenn.edu/Chinese/

注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：
https://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/

《LDC上免费的中文信息处理资源》有4条评论

蒙奇奇说道：

2014年10月27号 10:55

亲爱的52nlp,抱歉又来打扰您了，几次鼓起勇气上LDC上去想下载资料，无奈页面是全英文的，啥都看不懂，看了半天，也不知道那个perl脚本写的中文分词工具（288行）和44405条带频率统计的词表在哪下载，能指导指导吗？

[回复]
52nlp 回复:
30 10 月, 2014 at 09:24
Sorry，这个事情之前有同学在微博上私信问过我，我仔细看了一下，发现它的页面改版了，也没找到，之前的备份不太好挖出来。

[回复]
周小凡说道：

2017年07月28号 16:36

您那边有备份啊？谢谢

[回复]
52nlp 回复:
28 7 月, 2017 at 23:18
找不到了，抱歉

[回复]

LDC上免费的中文信息处理资源

作者52nlp

作者 52nlp

相关文章

Qwen3来了，全尺寸开源，性能拉满！附最新一手实测！

DeepSeek-V3解析及技术报告英中报告对照版

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

《LDC上免费的中文信息处理资源》有4条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《LDC上免费的中文信息处理资源》有4条评论

发表回复

You missed