标签归档:Jeffrey Dean

MapReduce与自然语言处理

  我接触MapReduce时间不长,属于初学者的级别,本没有资格在这里谈“MapReduce与自然语言处理”的,不过这两天刚好看了IBM developerWorks上的《用 MapReduce 解决与云计算相关的 Big Data 问题》,觉得这篇文章有两大好处:第一,它有意或无意的给了读者不仅有价值而且有脉络的关于MapReduce的参考资料;第二,虽然文中没有直接谈“自然语言处理”,但是在最后的“下一步”引申中,它给关注MapReduce在文本处理的读者列出了一份与自然语言处理相关的参考资料,这些资料,相当的有价值。因此对于“MapReduce或者并行算法与自然语言处理”,结合这篇文章以及自己的一点点经验,我尝试在这里“抛砖引玉”一把,当然,仅仅是抛砖引玉。
  MapReduce是Google定义的一套并行程序设计模式(parallel programming paradigm),由两名Google的研究员Jeffrey DeanSanjay Ghemawat在2004年时提出,二人目前均为Google Fellow。所以两位Google研究员当年的论文是MapReudce学习者的必读:

'Google 工程师发表的文章 "MapReduce: Simplified Data Processing on Large Clusters" 清楚地解释了 MapReduce 的工作方式。这篇文章导致的结果是,从 2004 年到现在出现了许多开放源码的 MapReduce 实现。'

  同时在Google Labs上,有这篇文章的摘要和HTML Slides

MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, and a reduce function that merges all intermediate values associated with the same intermediate key. Many real world tasks are expressible in this model, as shown in the paper.

继续阅读