首页 > 解决方案 > 如何将数据聚合工作分配给多个 Spark 执行器

问题描述

需要快速建议。

我在 S3 中有一个压缩文件(3 GB 大小),我正在尝试使用 apache spark 读取该文件,然后我正在执行聚合操作。

所以当我使用以下配置启动火花作业时

--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G

火花作业从 3 个执行者开始,但只有一个任务正在启动,其他 2 个执行者是理想的。我试着做reparation(3)

只是为了坚持火花启动更多任务,但我仍然看到只有一个任务在运行。在我目前的情况下,数据端在未压缩时为 50 G,并且由于只有一个任务正在尝试处理数据,因此我看到内存不足异常。

我尝试添加 StorageLevel,但这并没有解决我的问题。

非常感谢任何建议。

提前致谢。

标签: apache-sparkamazon-s3pyspark

解决方案


推荐阅读