apache-spark - spark如何从HDFS加载文件以及它与RDD的关系

如何从集群中的 HDFS 触发 laod 数据？
块如何转换为 RDD？

假设我有 3 个节点集群，并且我有一个名为 log.txt 的文件，它分为 3 个块。所有 3 个节点每个块都有一个。

spark如何加载log.txt以及如何将其转换为RDD？

标签： apache-sparkhadoop

Spark 与任何 HDFS 客户端没有什么不同。

与namenode联系以获取文件，它返回块的位置，然后HDFS客户端将从datanodes中获取块。

块不会“转换为”RDD，而是 RDD 只是应用于 Hadoop 的元数据，这些HadoopInputSplit由InputFormat. RecordReaderRDD 是惰性求值的，因此它们不代表数据的传输或转换