LDC上免费的中文信息处理资源

  著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。
  对于中文信息处理来说,LDC上有一个专门的页面予以了介绍,难能宝贵的是,在这个页面上LDC还免费提供了一些中文信息处理的资源供研究者使用,以下简单列出其所包括的资源:

1、 汉字及其相应拼音表示的对应表:
  包括了7809个条目的汉字及其相应的拼音表示,一些汉字对应了不止一个拼音,即多音字,内容示例如下:
    啊 a1
    啊 a2
    啊 a3
    啊 a4
    啊 a5
    阿 a1
    阿 a5
    阿 e1
    …

2、 汉英平行对应词表:
  包括了汉英及英汉双向的对应词条,分别有1.0和2.0版本,汉英词条内容示例如下:
  啊 /(interj.)/ah/an interjection/…/
  啊呀 /oh/
  阿 /an initial particle/prefix to names of people/(phonetic character)/(final part.)/(interj.)/flatter/
  阿巴丹 /Abadan /
  阿贝马马环礁 /Abemama Atoll/
  阿贝歇 /Abechar/
  阿比让 /Abidjan/
  阿比西尼亚 /Abyssinia/
  阿比西尼亚人 /Abyssinian (person)/
  …

3、 中文分词工具:
  一个perl脚本写得中文分词工具(288行),打包文件中包含了一个有频率统计的词表(很有用的一个中文分词资源),共计44405条,内容示例如下:
    214048 的 di4
    214048 的 de5
    70872 了 liao3
    70872 了 le5
    61364 我 wo3
    58407 在 zai4
    57385 是 shi4
    56756 一 yi1
    …

4、 香港法律汉英双语平行语料库:
  SGML格式,共计238271句对,一个不错的统计机器翻译实验资源。英文语料部分内容示例如下:
  <s id=1> To consolidate and amend the law relating to the construction, application and interpretation of laws, to make general provisions with regard thereto, to define terms and expressions used in laws and public documents, to make general provision with regard to public officers, public contracts and civil and criminal proceedings and for purposes and for matters incidental thereto or connected therewith.
  <s id=2> [31 December 1966] L.N. 88 of 1966
  <s id=3> PART I
  <s id=4> SHORT TITLE AND APPLICATION
  <s id=5> This Ordinance may be cited as the Interpretation and General Clauses
  ….

  详细的情况读者可以在LDC上关于中文信息处理的页面查看:
     http://projects.ldc.upenn.edu/Chinese/

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:
http://www.52nlp.cn/free-resources-of-chinese-information-processing-in-ldc/

相关文章:

  1. 推荐张华平老师的中文分词工具ICTCLAS2010
  2. 中文分词入门之最大匹配法扩展2
  3. MIT自然语言处理第五讲:最大熵和对数线性模型(第一部分)
  4. MIT自然语言处理第二讲:单词计数(第四部分)
  5. 中文分词入门之文献
  6. 中文分词入门之资源
  7. HMM在自然语言处理中的应用一:词性标注4
  8. 最有影响力的自然语言处理论文
  9. 代友转发:发起成立中文机器翻译定期学术沙龙
  10. 自然语言处理与计算语言学书籍汇总之五:机器翻译

此条目发表在 中文信息处理, 自然语言处理 分类目录,贴了 , , , , , , , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>