首页 > 解决方案 > HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?

问题描述

我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑,但我大部分都了解它们。我的问题是:HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?换句话说,HDFS 中的节点是对它们包含的数据进行操作,还是将来自 HDFS 中的数据节点的数据发送到操作数据的 spark 集群中的 executors 节点?如果您希望我澄清任何事情,请告诉我!任何帮助将非常感激!

谢谢,

泰勒

标签: apache-sparkhadoopmapreducehdfs

解决方案


我总是首先从独立的角度思考这些概念,然后再从集群的角度思考这些概念。

考虑单台机器(您还将在本地模式下运行 Spark),DataNode并且NameNode只是支持 HDFS 抽象设计的软件片段(即NameNode存储文件树、文件元数据等,同时DataNode存储实际数据块。)。driver并且executors是 Spark 中的概念,在本地模式下,Spark 应用程序由一个driver 进程和一组executor 进程组成,它们作为线程在您的个​​人计算机上运行。


推荐阅读