微软研究院的官方网站上近期发布了一篇文章:“Microsoft Web N-gram Services",大意是邀请整个社区使用其提供的"Web N-gram services",这个服务旨在通过基于云的存储平台,推动网络搜索,自然语言处理,语音技术等相关领域,在研究现实世界的大规模网络数据时,利用该服务所提供动态数据对项目中的常规数据进行补充更新,进而有所发现和创新。
  有意思的是它的副标题:“Access petabytes of data via the Web N-gram services (Public Beta)”,注意微软这个服务提供的是PB(petabytes)级别的数据:
  1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB
  如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话,那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。
  微软的这项"Web N-gram Services"包括如下服务内容:
  * Content types: Document Body, Document Title, Anchor Texts
  * Model types: Smoothed models
  * N-gram availability: unigram, bigram, trigram, N-gram with N=4, 5.(最大也是5元)
  * Training size (Body): All documents indexed by Bing
  * Access: Hosted Services by Microsoft
  * Updates: Periodical updates
  查了一下微软的这个“Web N-gram Services”,大致是在4月下旬WWW2010会议上公开的,之前一年属于"private beta”,目前是“public beta”,不过这篇文章最后说得是:“We are now expanding access in the Public Beta Web N-gram Services to include professors and students at accredited colleges and universities worldwide.” 似乎只针对授权的大学教授和学生开放。
  不过网上目前可以查到如何使用该服务的文章:How to use Microsoft Web N-gram service,微软自己也有一个“Quick Start",需要你”read the terms of use”并点击“I agree"之后就能看到,或者,可以试一下下面这个网页:

http://web-ngram.research.microsoft.com/info/quickstart.htm

  这两份文档都比较详细,有兴趣和条件的读者可以试一下。

注:转载请注明出处“我爱自然语言处理”:www.52nlp.cn

本文链接地址:https://www.52nlp.cn/微软-web-n-gram-services

作者 52nlp

《微软:Web N-gram Services》有9条评论
  1. 你好,想向你请教个问题。对数回归中的截距和斜率怎么求?我正看统计《推断这本书》上面第12章, example 12.3.1有一个挑战者数据的例子。可是怎么看也没看懂截距和斜率是怎么求出来的。。

    [回复]

    我是一头驴子 回复:

    看明白了,用牛顿迭代法。呵呵。

    [回复]

    52nlp 回复:

    解决了就好,其实我还没看过《统计推断》那本书,不太清楚。

    [回复]

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注