HDFS 是 Hadoop Distributed File System(Hadoop 分布式文件系统) 的缩写,用于在多台服务器上分布式存储海量数据,并通过数据副本提高容错性与可靠性。常见于大数据平台与离线批处理场景。(注:在不同语境下它也可被当作“Hadoop 的文件系统层/存储层”来泛指。)
/ˌeɪtʃ diː ˌɛf ˈɛs/
We store our logs in HDFS.
我们把日志存储在 HDFS 里。
After the ETL job finishes, the pipeline writes partitioned Parquet files to HDFS so downstream Spark queries can scan them efficiently.
ETL 作业完成后,流水线把分区的 Parquet 文件写入 HDFS,便于下游的 Spark 查询高效扫描。
HDFS 来自首字母缩写:Hadoop Distributed File System。它是 Hadoop 生态的核心组件之一,设计目标是用普通硬件集群存储超大文件,通过 NameNode/DataNode 架构与副本机制实现可扩展与容错。