apache-spark - 基于 Spark 处理存储在 SSD 上的数据

首页 > 解决方案 > 基于 Spark 处理存储在 SSD 上的数据

问题描述

我们目前正在使用基于 Spark 2.1 的应用程序，该应用程序分析和处理大量记录以生成一些用于生成报告的统计信息。现在我们使用 150 个执行器，每个执行器 2 个核心，每个执行器 10 GB 用于 Spark 作业，数据大小约为 3TB，以 parquet 格式存储。处理 12 个月的数据需要大约 15 分钟的时间。

现在为了提高性能，我们想尝试基于全 SSD 的节点将数据存储在 HDFS 中。那么问题来了，SSD 有什么特殊的配置/优化需要做的吗？是否对基于 SSD 的 HDFS 与基于 HDD 的 HDFS 的 Spark 处理性能进行了任何研究？

标签： apache-sparkapache-spark-sqlhdfssolid-state-drive

解决方案

http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks

SPARK_LOCAL_DIRS是您需要更改的配置。

https://www.slideshare.net/databricks/optimizing-apache-spark-throughput-using-intel-optane-and-intel-memory-drive-technology-with-ravikanth-durgavajhala

用例是 K 表示算法，但会有所帮助。

apache-spark - 基于 Spark 处理存储在 SSD 上的数据

问题描述

解决方案

推荐阅读