apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?
问题描述
我正在学习 Apache Spark 和 HDFS。尽管我对一件事感到困惑,但我大部分都了解它们。我的问题是:HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同?换句话说,HDFS 中的节点是对它们包含的数据进行操作,还是将来自 HDFS 中的数据节点的数据发送到操作数据的 spark 集群中的 executors 节点?如果您希望我澄清任何事情,请告诉我!任何帮助将非常感激!
谢谢,
泰勒
解决方案
我总是首先从独立的角度思考这些概念,然后再从集群的角度思考这些概念。
考虑单台机器(您还将在本地模式下运行 Spark),DataNode
并且NameNode
只是支持 HDFS 抽象设计的软件片段(即NameNode
存储文件树、文件元数据等,同时DataNode
存储实际数据块。)。driver
并且executors
是 Spark 中的概念,在本地模式下,Spark 应用程序由一个driver
进程和一组executor
进程组成,它们作为线程在您的个人计算机上运行。
推荐阅读
- java - Mono 到 Flux 的 Spring 响应式列表
- java - Logback :在特定的 appender 上启用类并在其他 appender 上禁用它
- excel - 在 MS Excel 中,当已经给出该期间的 CAGR 时,可以使用什么公式来计算增长?
- selenium - 如何在 Selenium 中将 getStartMillis 转换为正常时间格式(通过 jenkins 从 Selenium 代码将结果发布到 Splunk)
- powerbi - 在 SSAS 表格的 DAX 度量中使用 SUMX 时,如何删除来自用户选择的行上下文?
- amazon-web-services - AZ64压缩格式性能
- go - Golang 微服务的 Opentracing span 失败
- css - 为什么 SVG textPath 不呈现?[开发工具中的 0x0]
- google-apps-script - 如果单元格值发生更改,则调用函数
- reporting-services - 将 SSRS 报表导出到 Excel 时超出最大行数