统计语言模型大概是自然语言处理中最简洁也最漂亮的模型了,在自然语言处理中,统计语言模型的应用包括语音识别、机器翻译、中文分词、拼写检查、语言识别、输入法等等,以至于Google科学家吴军老师的《数学之美》系列第一篇就介绍了统计语言模型。
  以前曾计划在52nlp上写一个“统计语言模型的应用”系列,但是后来慢慢淡忘,不过前不久看到了一本名为《Beautiful Data》的书,其中汇集了众多牛人所写的不同方向数据处理的介绍文章,彰显“数据之美”,似乎与自然语言处理无关,但突然发现第14章写得是:

Chapter 14, Natural Language Corpus Data, by Peter Norvig, takes the reader through some evocative exercises with a trillion-word corpus of natural language data pulled down from across the Web.

  我马上来了兴致,立即翻阅第14章,发现其讲得是Google的超大5元语言模型,这个语言模型的token数目以trillion计,压缩后为24GB,以下是基本的统计:

Number of tokens: 1,024,908,267,229
Number of sentences: 95,119,665,584
Number of unigrams: 13,588,391
Number of bigrams: 314,843,401
Number of trigrams: 977,069,902
Number of fourgrams: 1,313,818,354
Number of fivegrams: 1,176,470,663

  对此模型有兴趣的读者可以查阅Google Research Blog上的这篇文章《Official Google Research Blog: All Our N-gram are Belong to You》,国内目前无法访问,一个简单的阅读办法就是通过Google的“网页快照”功能阅读。
  不过在阅读这一章之前,我对作者“Peter Norvig”产生了好奇,不查不知道,一查吓一跳,原来Peter Norvig是头“巨牛”(注:恕我无知,知道的读者请一笑而过)。惊讶不仅仅是因为Peter Norvig拥有着Google研究院主任、美国计算机协会(ACM)资深会员(Fellow)、人工智能专家等头衔,更惊讶的他也是《十年学会程序设计》,《怎样写一个拼写检查器》的原作者,我曾看过徐宥的翻译版本,印象非常深刻,未曾想过这两篇竟出自同一大牛之手。另外,人工智能领域无可争议的经典书籍《Artificial Intelligence: A Modern Approach》也有 Peter Norvig一半的功劳,看来以后读到好文章时一定要Google一下这个作者了。
  而在《Beautiful Data》第14章中,Peter Norvig主要通过三个例子“Word Segmentation, Secret Codes, Spelling Correction”展示了统计语言模型的魅力,非常有趣。读完之后,我有拿起笔的冲动,于是计划在52nlp上先按自己的理解介绍Peter Norvig大牛的这篇文章,然后续写统计语言模型在自然语言处理中其他方面的应用,完成“统计语言模型的应用”这个系列。
  最后,再多说一点,之所以能找到《Beautiful Data》这本书,是因为我很喜欢《Programming Collective Intelligence》,所以去作者Toby Segaran的博客看了一下,发现他09年又出了两本新书:《Programming the Semantic Web》和《Beautiful Data》,所以Google了下来,其实后者他应该算作编辑,虽然也写了第20章。但是凭借《Programming Collective Intelligence》的口碑,我还是很相信这两本书的质量的。有条件的读者,可以考虑购买原版书籍来看,不知道国内什么时候会有影印版和翻译版,而至于电子版,权当先睹为快吧!

未完待续:背景

注:原创文章,转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/beautiful-data-统计语言模型的应用一缘起

作者 52nlp

《Beautiful Data-统计语言模型的应用一:缘起》有2条评论
  1. 呵呵,我也是通过Programming Collective Intelligence找到Beautiful Data的

    [回复]

    52nlp 回复:

    Programming Collective Intelligence很不错!

    [回复]

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注