首页 > 解决方案 > Spark 性能 EMR(2.4.5) 与 EKS(3.0.0)

问题描述

我正在对一些 Spark 作业进行实验,并尝试比较 EMR 和 EKS 的性能。我使用的硬件是 2 个 m5.2xlarge 实例(8 个 vCore,32 GiB 内存)。原因是它通常是 EKS 和 EMR 之间共享的硬件实例,因此比较性能更可靠。

我还分享了 spark 配置:

--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g 

(用于 EMR 的 Spark 2.4.5,用于 Kubernetes 的 Spark 3.0.0)

spark 作业从 S3 读取一些 json 文件,然后再次将 parquet 存储在 S3 上。我系统地在 EMR 上从 S3 获得更快的读写速度(在 EMR 上大约快 23%)。

这可能是因为对 EMR 进行了特定于 s3 的优化吗?可以做些什么来提高 Kubernetes 的性能?

标签: apache-sparkamazon-emramazon-eks

解决方案


推荐阅读