首页 > 解决方案 > 什么有助于火花驱动程序 maxResultSize 限制?

问题描述

在我的 Spark 工作中,我发送给驱动程序的结果只有几 KB。spark.driver.maxResultSize尽管设置为 4 GB ,但我仍然遇到以下异常:

ERROR TaskSetManager: Total size of serialized results of 3021102 tasks (4.0 GB) is bigger than spark.driver.maxResultSize (4.0 GB)

Spark 累加器或其他任何东西是否有助于从分配的内存使用spark.driver.maxResultSize?是否有官方文档/代码可供我参考以了解更多信息?

有关代码/执行的更多详细信息:

  1. 有300万个任务
  2. 每个任务从 S3 读取 50 个文件并在转换后将它们重新写回 S3
  3. 任务返回 S3 文件的前缀以及一些元数据,这些元数据在驱动程序中收集以保存到文件。此数据 < 50 MB

标签: apache-sparkmemorydatabricksazure-databricks

解决方案


推荐阅读