apache-spark - 基于 Spark 处理存储在 SSD 上的数据
问题描述
我们目前正在使用基于 Spark 2.1 的应用程序,该应用程序分析和处理大量记录以生成一些用于生成报告的统计信息。现在我们使用 150 个执行器,每个执行器 2 个核心,每个执行器 10 GB 用于 Spark 作业,数据大小约为 3TB,以 parquet 格式存储。处理 12 个月的数据需要大约 15 分钟的时间。
现在为了提高性能,我们想尝试基于全 SSD 的节点将数据存储在 HDFS 中。那么问题来了,SSD 有什么特殊的配置/优化需要做的吗?是否对基于 SSD 的 HDFS 与基于 HDD 的 HDFS 的 Spark 处理性能进行了任何研究?
解决方案
推荐阅读
- c# - 以不同用户身份从备份恢复 SQL 数据库
- excel - 使用 VBA 将 ListColumn 从一个表复制到另一个表时没有错误也没有数据
- python - Pyinstaller - 错误消息:名称 Actor 未定义
- android - 如何在我的项目结构中设置位置?
- java - 如何在 mockito 中模拟地图?
- angular - 如果列表为空,如何禁用 mat-form-field 或 mat-autocomplete?
- python - 为什么这在 c++ 中不起作用但在 python 中起作用
- visual-studio - 在 CMake 中添加 gRPC::grpc++ 库依赖后,libprotocd.lib 的意外路径
- django - 将模型传递给模板时,类视图错误“未定义名称‘上下文’”
- asp.net-core - 连接到本地 Identity Server 4 的新 Blazor 项目