九
2
著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。
对于中文信息处理来说,LDC上有一个专门的页面予以了介绍,难能宝贵的是,在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用,以下简单列出其所包括的资源:
1、 汉字及其相应拼音表示的对应表:
包括了7809个条目的汉字及其相应的拼音表示,一些汉字对应了不止一个拼音,即多音字,内容示例如下:
啊 a1
啊 a2
啊 a3
啊 a4
啊 a5
阿 a1
阿 a5
阿 e1
…
2、 汉英平行对应词表:
包括了汉英及英汉双向的对应词条,分别有1.0和2.0版本,汉英词条内容示例如下:
啊 /(interj.)/ah/an interjection/…/
啊呀 /oh/
阿 /an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/
阿巴丹 /Abadan /
阿贝马马环礁 /Abemama Atoll/
阿贝歇 /Abechar/
阿比让 /Abidjan/
阿比西尼亚 /Abyssinia/
阿比西尼亚人 /Abyssinian (person)/
…
3、 中文分词工具:
一个perl脚本写得中文分词工具(288行),打包文件中包含了一个有频率统计的词表(很有用的一个中文分词资源),共计44405条,内容示例如下:
214048 的 di4
214048 的 de5
70872 了 liao3
70872 了 le5
61364 我 wo3
58407 在 zai4
57385 是 shi4
56756 一 yi1
…
4、 香港法律汉英双语平行语料库:
SGML格式,共计238271句对,一个不错的统计机器翻译实验资源。英文语料部分内容示例如下:
<s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard thereto, to define terms and expressions used in laws and public documents, to make general provision with regard to public officers, public contracts and civil and criminal proceedings and for purposes and for matters incidental thereto or connected therewith.
<s id=2> [31 December 1966] L.N. 88 of 1966
<s id=3> PART I
<s id=4> SHORT TITLE AND APPLICATION
<s id=5> This Ordinance may be cited as the Interpretation and General Clauses
….
详细的情况读者可以在LDC上关于中文信息处理的页面查看:
http://projects.ldc.upenn.edu/Chinese/
注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn
本文链接地址:
http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/
相关文章:
- 推荐张华平老师的中文分词工具ICTCLAS2010
- 中文分词入门之文献
- 中文分词入门之资源
- 中文分词入门之字标注法1
- 中文分词入门之最大匹配法扩展1
- HMM在自然语言处理中的应用一:词性标注4
- 自然语言处理与计算语言学书籍汇总之六:国外书籍
- 最大熵模型文献阅读指南
- 最有影响力的自然语言处理论文
- HMM在自然语言处理中的应用一:词性标注2
评论
发表评论