apache-spark - 什么有助于火花驱动程序 maxResultSize 限制?
问题描述
在我的 Spark 工作中,我发送给驱动程序的结果只有几 KB。spark.driver.maxResultSize
尽管设置为 4 GB ,但我仍然遇到以下异常:
ERROR TaskSetManager: Total size of serialized results of 3021102 tasks (4.0 GB) is bigger than spark.driver.maxResultSize (4.0 GB)
Spark 累加器或其他任何东西是否有助于从分配的内存使用spark.driver.maxResultSize
?是否有官方文档/代码可供我参考以了解更多信息?
有关代码/执行的更多详细信息:
- 有300万个任务
- 每个任务从 S3 读取 50 个文件并在转换后将它们重新写回 S3
- 任务返回 S3 文件的前缀以及一些元数据,这些元数据在驱动程序中收集以保存到文件。此数据 < 50 MB
解决方案
推荐阅读
- elasticsearch - 启动 Elastic Kibana - 内部服务器 500 错误 - [illegal_argument_exception] 应用程序权限必须引用至少一个资源”}
- python - 如何显示在列视图中选择的项目的描述?
- c++ - Boost 是否为 C++14 提供 span 的实现?
- python - Python电报机器人问题
- powershell - 错误:无法使用指定的命名参数解析参数集
- node.js - 使用 Mongoose 和 Express 在 Mongo 上启用 SSL 证书
- sql - 在日期范围之间分配天数
- charts - 如何删除 Google Visualization Gauge 中的最小值和最大值
- javascript - 如何使用 vanilla JS 在 JSON 对象中记录表单输入?
- r - 如何为 R 中的每个唯一组合分别保存嵌套循环的结果