微软：Web N-gram Services

作者52nlp

5 月 13, 2010 #Google, #Microsoft, #n-gram, #Web, #Web N-gram Services, #云存储, #微软, #语言模型

　　微软研究院的官方网站上近期发布了一篇文章：“Microsoft Web N-gram Services"，大意是邀请整个社区使用其提供的"Web N-gram services",这个服务旨在通过基于云的存储平台，推动网络搜索，自然语言处理，语音技术等相关领域，在研究现实世界的大规模网络数据时，利用该服务所提供动态数据对项目中的常规数据进行补充更新，进而有所发现和创新。
　　有意思的是它的副标题：“Access petabytes of data via the Web N-gram services (Public Beta)”，注意微软这个服务提供的是PB(petabytes)级别的数据:
　　1PB = 1PeraByte = 1024 TB = 1024 * 1024 * 1024 MB
　　如果说Google的1T n-gram语言模型还可以压缩到大硬盘里使用的话，那么PB级别的n-gram语言模型目前来说最好的存储平台就是“云端”了。
　　微软的这项"Web N-gram Services"包括如下服务内容：
　　* Content types: Document Body, Document Title, Anchor Texts
　　* Model types: Smoothed models
　　* N-gram availability: unigram, bigram, trigram, N-gram with N=4, 5.（最大也是5元）
　　* Training size (Body): All documents indexed by Bing
　　* Access: Hosted Services by Microsoft
　　* Updates: Periodical updates
　　查了一下微软的这个“Web N-gram Services”，大致是在4月下旬WWW2010会议上公开的，之前一年属于"private beta”，目前是“public beta”，不过这篇文章最后说得是：“We are now expanding access in the Public Beta Web N-gram Services to include professors and students at accredited colleges and universities worldwide.” 似乎只针对授权的大学教授和学生开放。
　　不过网上目前可以查到如何使用该服务的文章：How to use Microsoft Web N-gram service，微软自己也有一个“Quick Start"，需要你”read the terms of use”并点击“I agree"之后就能看到，或者，可以试一下下面这个网页：

http://web-ngram.research.microsoft.com/info/quickstart.htm

　　这两份文档都比较详细，有兴趣和条件的读者可以试一下。

注：转载请注明出处“我爱自然语言处理”：www.52nlp.cn

本文链接地址：https://www.52nlp.cn/微软-web-n-gram-services

作者 52nlp

LLm 语言模型预训练模型

《微软：Web N-gram Services》有9条评论

seebeyond说道：

2010年05月13号 10:21

OK 多谢，去试试

[回复]
52nlp 回复:
13 5 月, 2010 at 23:44
不客气，最好试完了谈谈试用感受！

[回复]
我是一头驴子说道：

2010年05月13号 15:13

你好，想向你请教个问题。对数回归中的截距和斜率怎么求？我正看统计《推断这本书》上面第12章， example 12.3.1有一个挑战者数据的例子。可是怎么看也没看懂截距和斜率是怎么求出来的。。

[回复]
我是一头驴子回复:
13 5 月, 2010 at 20:37
看明白了，用牛顿迭代法。呵呵。

[回复]
52nlp 回复:
13 5 月, 2010 at 23:46
解决了就好，其实我还没看过《统计推断》那本书，不太清楚。

[回复]
陽光宅男说道：

2010年05月16号 00:01

站點專業性很強的

[回复]
52nlp 回复:
16 5 月, 2010 at 00:15
谢谢，欢迎！

[回复]
caichao说道：

2011年07月24号 22:37

这些数据都是什么？可以用来干嘛呢？

[回复]
52nlp 回复:
25 7 月, 2011 at 08:08
如果你不清楚，暂时可以不必关心这些数据。

[回复]

微软：Web N-gram Services

作者52nlp

作者 52nlp

相关文章

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

解密小米MiMo-VL：7B小模型如何实现多模态SOTA性能

QwenLong-L1：通过强化学习实现长上下文推理的大模型飞跃

《微软：Web N-gram Services》有9条评论

发表回复

You missed

Qwen3-VL技术报告英中对照版.pdf

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

GLM-4.5：三体合一的开源智能体大模型，重新定义AI推理边界

作者52nlp

相关文章：

作者 52nlp

相关文章

《微软：Web N-gram Services》有9条评论

发表回复

You missed