分类目录归档:并行算法

MapReduce与自然语言处理

  我接触MapReduce时间不长,属于初学者的级别,本没有资格在这里谈“MapReduce与自然语言处理”的,不过这两天刚好看了IBM developerWorks上的《用 MapReduce 解决与云计算相关的 Big Data 问题》,觉得这篇文章有两大好处:第一,它有意或无意的给了读者不仅有价值而且有脉络的关于MapReduce的参考资料;第二,虽然文中没有直接谈“自然语言处理”,但是在最后的“下一步”引申中,它给关注MapReduce在文本处理的读者列出了一份与自然语言处理相关的参考资料,这些资料,相当的有价值。因此对于“MapReduce或者并行算法与自然语言处理”,结合这篇文章以及自己的一点点经验,我尝试在这里“抛砖引玉”一把,当然,仅仅是抛砖引玉。   MapReduce是Google定义的一套并行程序设计模式(parallel programming paradigm),由两名Google的研究员Jeffrey Dean和Sanjay Ghemawat在2004年时提出,二人目前均为Google Fellow。所以两位Google研究员当年的论文是MapReudce学习者的必读: 'Google 工程师发表的文章 "MapReduce: Simplified Data Processing on Large Clusters" 清楚地解释了 MapReduce 的工作方式。这篇文章导致的结果是,从 2004 年到现在出现了许多开放源码的 MapReduce 实现。'   同时在Google Labs上,有这篇文章的摘要和HTML Slides: MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users specify a map function that processes a key/value pair to generate a set of intermediate key/value pairs, … 继续阅读

发表在 并行算法, 自然语言处理 | 标签为 , , , , , , , , | 5 条评论