MapReduce:一种用于大规模分布式数据处理的编程模型与执行框架。核心思想是把任务分成两步:Map(映射)把输入数据切分并转换成键值对,Reduce(归约)按键聚合并汇总结果。常用于日志分析、统计聚合、倒排索引等“批处理”场景。
/ˈmæp.rɪˌdjuːs/
We used MapReduce to count word frequencies in a large dataset.
我们用 MapReduce 来统计一个大型数据集中的词频。
In a distributed system, MapReduce partitions the input across many machines, then reduces intermediate key-value pairs into a final aggregated result.
在分布式系统中,MapReduce 会把输入分配到多台机器上处理,然后将中间产生的键值对归约汇总为最终的聚合结果。
MapReduce 是由 map 和 reduce 两个函数式编程术语组合而来:map 表示对每个元素进行映射变换,reduce 表示把一组值“折叠/归并”成更少的结果。该术语因 Google 在 2004 年发表的论文而广为流行,随后成为分布式计算领域的重要概念,并在 Hadoop 等开源生态中得到普及。