月归档:三月 2010

砖石,还是露水

  本文转自哈工大信息检索研究室刘挺老师的博客,是关于创新的,举了两个例子:基于字标注的中文分词方法和搜狗输入法,感觉写得很有启发性,读者也可以对比一下《自然语言处理领域的两种创新观念》。刘老师是国内自然语言处理领域的重量级人物,他的博文估计很多都早已被读者熟悉,这里就不多说了。

发表在 自然语言处理, 转载 | 标签为 , , , , , | 2 条评论

Beautiful Data-统计语言模型的应用三:分词2

  现在,我们就可以应用这个方法来进行分词了。首先定义一个函数:segment,其输入是一串没有空格的字符串,而输出则是一个单词列表,既最好的分词结果:

发表在 中文分词, 语言模型 | 标签为 , , , , , , | 留下评论