首页 > 解决方案 > spark如何从HDFS加载文件以及它与RDD的关系

问题描述

如何从集群中的 HDFS 触发 laod 数据?
块如何转换为 RDD?

假设我有 3 个节点集群,并且我有一个名为 log.txt 的文件,它分为 3 个块。所有 3 个节点每个块都有一个。

spark如何加载log.txt以及如何将其转换为RDD?

标签: apache-sparkhadoop

解决方案


Spark 与任何 HDFS 客户端没有什么不同。

与namenode联系以获取文件,它返回块的位置,然后HDFS客户端将从datanodes中获取块。

块不会“转换为”RDD,而是 RDD 只是应用于 Hadoop 的元数据,这些HadoopInputSplitInputFormat. RecordReaderRDD 是惰性求值的,因此它们不代表数据的传输或转换


推荐阅读