apache-spark - 如何将数据聚合工作分配给多个 Spark 执行器

需要快速建议。

我在 S3 中有一个压缩文件（3 GB 大小），我正在尝试使用 apache spark 读取该文件，然后我正在执行聚合操作。

所以当我使用以下配置启动火花作业时

--num-executors 3 --executor-memory 10G --executor-cores 4 --driver-memory 5G

火花作业从 3 个执行者开始，但只有一个任务正在启动，其他 2 个执行者是理想的。我试着做reparation(3)

只是为了坚持火花启动更多任务，但我仍然看到只有一个任务在运行。在我目前的情况下，数据端在未压缩时为 50 G，并且由于只有一个任务正在尝试处理数据，因此我看到内存不足异常。

我尝试添加 StorageLevel，但这并没有解决我的问题。

非常感谢任何建议。

提前致谢。

标签： apache-sparkamazon-s3pyspark