标签归档:语料库

请求捐赠短信,为短信语料库的创建出一份力

大家好:

我们是来自新加坡国立大学计算机学院的研究人员。我们在6年前收集过英文短信,之后发布了10,000条英文短信的语料库,供研究人员免费使用。

目前我们重新启动了短信收集项目,扩展已有的英文短信,同时还为了创建中文短信库。该项目通过了新加坡国立大学学术委员会的审查。目前我们收集到 15,111条中文短信,语料库已经发布。详情见http://wing.comp.nus.edu.sg:8080/SMSCorpus/

短信属于隐私数据,收集十分不易。目前在学术领域,公开的短信数据库非常稀少。我们发这个帖子的目的,是让更多的人了解我们的工作,宣传我们的语料库,更重要地是希望你能够帮助语料库的创建。

希望大家能够捐赠一些自己的短信!为短信研究贡献自己的一份力量!捐赠短信的详细方法见项目主页(http://wing.comp.nus.edu.sg:8080/SMSCorpus/)的短信捐赠页面。在存入数据库前,我们会对收集到的短信做相应的处理,保护捐献者的隐私。

感谢大家!

LDC上免费的中文信息处理资源

  著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。 继续阅读

最有影响力的自然语言处理论文

  最近有时间我会从前往后阅读nlper这个博客,发现“Most Influential NLP Papers”这篇文章比较有参考价值,不过写于06年初,稍早一些,但是真金不怕火炼,就放在这里供大家参考了! 继续阅读

欧洲议会平行语料库介绍

  平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。本文主要根据欧洲议会平行语料库的英文主页介绍进行了粗略翻译,其时间跨度从1996年至2006年,目前这个语料库还在继续扩建中。 继续阅读