标签归档:语言模型

中英文维基百科语料上的Word2Vec实验

最近试了一下Word2Vec, GloVe 以及对应的python版本 gens … 继续阅读

发表在 自然语言处理, 语义相似度, 语言模型 | 标签为 , , , , , , , , , , , , , , , , , , , , , , , , , , | 188条评论

微软:Web N-gram Services

  微软研究院的官方网站上近期发布了一篇文章:“Microsoft Web N- … 继续阅读

发表在 语料库, 语言模型 | 标签为 , , , , , , , | 9条评论

Beautiful Data-统计语言模型的应用三:分词8

  对于一个包含n个字符的单词来说,利用语言模型进行分词的前提是首先枚举出所有的 … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , , , | 2条评论

安装Srilm的一点新变化

  读者Fanlc昨天在《Ubuntu 64位系统下SRILM的配置详解》下留言 … 继续阅读

发表在 机器翻译, 语言模型 | 标签为 , , , | 22条评论

Beautiful Data-统计语言模型的应用三:分词7

  走到这一步,我们利用Google的一元语言模型进行分词的程序基本上已经完成了 … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , | 4条评论

Beautiful Data-统计语言模型的应用三:分词6

  说完了Python中的__call__函数,我们继续来完善segment.p … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , , , | 4条评论

Beautiful Data-统计语言模型的应用三:分词5

  上一节我们已经解读了Pdist类中的__init__函数,这一节重点关注一下 … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , , , | 一条评论

Beautiful Data-统计语言模型的应用三:分词4

  对于Pw函数,这里稍微多做一点说。首先我们从一元语言模型的文件里读取单词及其 … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , , | 5条评论

Beautiful Data-统计语言模型的应用三:分词3

  本节我们进入《Beautiful Data》中分词的编码阶段,完整的程序及数 … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , , , , | 留下评论

Beautiful Data-统计语言模型的应用三:分词2

  现在,我们就可以应用这个方法来进行分词了。首先定义一个函数:segment, … 继续阅读

发表在 中文分词, 语言模型 | 标签为 , , , , , , | 留下评论