笔者深感免费共享的中文NLP资源的匮乏,有意将自己整理的词库等NLP资源分享出来,希望能获得更多的NLP爱好者的响应与支持,群策群力,共建NLP基础资源(如常用词语,常用姓氏,语义词典,反义词词典,近义词词典,句法库等等)。

笔者的这个倡议,刚在“自然语言理解一”QQ群发出,即得到了“总督”、“雨霁”等等的支持。“总督”建议:根据不同的应用,通过大家的讨论,确定词性标准,建立不同的词库,如为句子的树库而标,为统计语言现象而标,为教学目的而标等等。“雨霁”建议:限定范围,目的性强一些,为某些领域、专属名词建词库,如地名、机构名。

在此,抛砖引玉,希望大家能积极地拍砖扔鸡蛋(:))。

附我的词库的截图:

作者 王 增才

致力于自然语言理解研究(包括词库、中文分词、句法、语义等方面的研究,开发的产品涉及智能搜索引擎、机器翻译、专家咨询系统、机器人语言系统等人工智能领域)。

《共建词库等基础NLP资源的倡议》有11条评论
  1. 我们研究室对词库的研究已经有十年,网上搜索一些关于 field association term 论文,会发现相关信息。
    另外,我建了汉语的词库,相关信息发在群的空间里了,主要的问题是,词库目前属于我的导师,等我回国以后,适当的时候公开。
    有什么好的建议,也可以联系我。

    [回复]

    raogaoqi 回复:

    请问楼主是什么研究室呢?

    [回复]

    回复二月 回复:

    日本 德岛大学 青江研究室 (Aoe lab)

    [回复]

  2. 很好的提议,但是就我个人的感觉来说,单是建设词库这样的资源个人可以为之,但是上升到句法库等基础nlp资源时,个人的力量可能很有限,不过这只是我的一家之言。

    [回复]

    王 增才 回复:

    是的,句法库工作量很大,所以希望能有更多的人一起来编辑维护。

    [回复]

  3. 请教哪里可以下载 命名实体识别 实验的数据集,多谢。。。

    [回复]

    52nlp 回复:

    不太清楚,抱歉!

    [回复]

  4. 童鞋所见略同,我们今年有一个构建词表的项目,目的是领域信息抽取。
    希望能将它做成一个大家可以广泛参与的、有生命力的词表。
    我还没有参加52nlp的QQ群,希望有兴趣的童鞋能一起讨论,我的qq是5796821
    email是 toppiprc--AT--gmail

    [回复]

    王 增才 回复:

    已加你QQ。

    [回复]

  5. 如果有什么详细的计划的话请告知一声,我也希望能做点事情的。
    我的邮箱是xiangwangcn@gmai.com

    [回复]

    王 增才 回复:

    感谢参与,已记录你的邮箱。希望能在大家的讨论下制定出一个详细计划。

    [回复]

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注