Hadoop:一个用于分布式存储与分布式计算的大数据开源框架(Apache 项目),核心组件常指 HDFS(分布式文件系统)与 MapReduce(批处理计算模型)。在更广义语境中,也可指围绕它形成的“大数据生态系统”。
/ˈhæduːp/
We store the logs in Hadoop for later analysis.
我们把日志存到 Hadoop 里,方便之后分析。
As the dataset grew to petabytes, the team migrated its batch pipelines to Hadoop and optimized jobs to reduce shuffle costs.
当数据集增长到 PB 级别后,团队把批处理流水线迁移到 Hadoop,并优化作业以降低 shuffle 开销。
“Hadoop” 这个名字并非由技术术语构成,而是源于 Hadoop 创始人之一 Doug Cutting 的孩子对自己毛绒玩具大象的称呼;后来该名字被用于 Apache 的开源大数据框架项目,逐渐成为分布式大数据处理领域的标志性名词。