三
10
本节我们进入《Beautiful Data》中分词的编码阶段,完整的程序及数据大家可以在“Natural Language Corpus Data: Beautiful Data”上下载ngrams.zip,我这里主要做一些解读。程序由python实现,无论在Linux或者Windows平台下,只要安装了相应的python版本,程序均可以通过测试,不过我所使用的是python2.6,注意,在python3.0上会有一些问题。 阅读全文
三
2
现在,我们就可以应用这个方法来进行分词了。首先定义一个函数:segment,其输入是一串没有空格的字符串,而输出则是一个单词列表,既最好的分词结果: 阅读全文
二
26
本节我们开始《Beautiful Data》中的“Word Segmentation”之旅,虽然Peter Norvig大牛从中文分词的需求讲起,但本节事实上讲得是英文分词,毕竟Google语言模型是以英文语料库为基础的,用中文分词举例Google语言模型就无用武之地了。一般说来,英文是不需要分词的,基本上tokenization就够了。但是某些时候,譬如英文网址(URLs)就没有空格,对于搜索引擎或者文字处理程序来说正确的分词就很重要了。不过,无论英文分词还是中文分词,利用统计语言模型来分词的思想本质是一样的。 阅读全文
二
9
本节我们进入《Beautiful Data》的正题,将沿着其第14章Peter Norvig大牛的“Natural Language Corpus Data”的轨迹介绍统计语言模型的三个应用:分词、解码及拼写检查。不过《Beautiful Data》中这三个应用依赖着Google的海量语言模型,所以Peter Norvig研究员首先介绍的也是Google语言模型的一些基本情况和背景。 阅读全文
二
3
统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了,在自然语言处理中,统计语言模型的应用包括语音识别、机器翻译、中文分词、拼写检查、语言识别、输入法等等,以至于Google科学家吴军老师的《数学之美》系列第一篇就介绍了统计语言模型。 阅读全文
六
4
这篇文章是师弟YYL写给52nlp的。实验室机器的cpu是intel 64位的,而我安装的是Ubuntu8.10的32位版本,因此《Ubuntu8.10下moses测试平台搭建全记录》里的SRILM的编译方法只适用于32位的系统。师弟新装了Ubuntu 9.04 64位的桌面版,发现参照我的方法和其他人写的SRILM编译方法并不合适,而关于64位系统下编译SRILM的文章又很少,于是给52nlp写了这篇文章,这里非常感谢! 阅读全文
三
28
Moses目前支持三个语言模型工具包:SRILM(The SRI language modeling toolkit),IRSTLM(IRST language modeling toolkit)和RandLM(the RandLM language modeling toolkit). SRILM我已经多次介绍过了,这里再介绍一下IRSTLM。 阅读全文
二
25
SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。 阅读全文
二
16
自然语言处理:概率语言模型
Natural Language Processing: Probabilistic Language Modeling 阅读全文
二
11
自然语言处理:概率语言模型
Natural Language Processing: Probabilistic Language Modeling 阅读全文