标签归档:LDC

Beautiful Data-统计语言模型的应用二:背景

  本节我们进入《Beautiful Data》的正题,将沿着其第14章Peter Norvig大牛的“Natural Language Corpus Data”的轨迹介绍统计语言模型的三个应用:分词、解码及拼写检查。不过《Beautiful Data》中这三个应用依赖着Google的海量语言模型,所以Peter Norvig研究员首先介绍的也是Google语言模型的一些基本情况和背景。 继续阅读

中文分词入门之资源

  作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHAN Bakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHAN Bakeoff及相关的中文分词入门资源。 继续阅读

LDC上免费的中文信息处理资源

  著名的语言数据联盟LDC (Linguistic Data Consortium) 于1992年创办,由美国宾夕法尼亚大学主办,拥有众多的优质语言资源,对于自然语言处理及计算语言学的研究者来说,算得上是一座语言资源的金矿。不过其实行会员制,绝大部分语言资源需要收取一定费用,但是对于会员来说,费用相对低廉一些,因此世界上的许多大学及科研机构都是其会员,国内如哈工大、计算所等知名的自然语言处理研究单位也是其会员。 继续阅读