apache-spark - Spark 性能 EMR(2.4.5) 与 EKS(3.0.0)
问题描述
我正在对一些 Spark 作业进行实验,并尝试比较 EMR 和 EKS 的性能。我使用的硬件是 2 个 m5.2xlarge 实例(8 个 vCore,32 GiB 内存)。原因是它通常是 EKS 和 EMR 之间共享的硬件实例,因此比较性能更可靠。
我还分享了 spark 配置:
--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g
(用于 EMR 的 Spark 2.4.5,用于 Kubernetes 的 Spark 3.0.0)
spark 作业从 S3 读取一些 json 文件,然后再次将 parquet 存储在 S3 上。我系统地在 EMR 上从 S3 获得更快的读写速度(在 EMR 上大约快 23%)。
这可能是因为对 EMR 进行了特定于 s3 的优化吗?可以做些什么来提高 Kubernetes 的性能?
解决方案
推荐阅读
- python - 遍历列表中的多个字典
- sql-server - 除以两列但避免除以零
- pandas - Folium choropleth 默认为填充而不是空
- python - PySpark:Py4JJavaError:调用 o27.awaitTermination 时发生错误
- matlab - 如何根据MATLAB中另一个表中不同列之间的比较来删除表数据?
- pandas - Pandas 数据框中的滚动方式
- rest - 如何将变量从一个功能文件传递到另一个
- ios - 如何根据领域中的特定属性更新领域对象?
- java - 如何获取 ExtentReport-cucumber 报告实例?
- docker - 将 Hyperledger Sawtooth 客户端连接到另一台机器上的 Hyperledger Sawtooth Validator