python - 如何在 pyspark 中的 AWS Glue 作业中避免 OOM 错误
问题描述
我在使用 40 个工作人员运行 AWS Glue 作业并处理 40GB 数据时遇到此错误
Caused by: org.apache.spark.memory.SparkOutOfMemoryError: error while calling spill() on org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter@5fa14240 : No space left on device
我如何优化我的工作以避免在 pyspark 上出现此类错误
这是指标 glue_metrics的图片
解决方案
推荐阅读
- reactjs - React-data-grid :根据行的值更改行颜色
- python - Mac OS X:无法通过 pip 安装 easysnmp
- android - Android Studio 模拟器打开后立即关闭
- android - Android 每 x 分钟运行一次 Kotlin Coroutine
- javascript - 新函数字符串到真正的 javascript 的替代选项
- javascript - 如何使用 Exif 库来旋转图像?
- mysql - Spring JWT,缺少有关数据库中角色的信息
- mongodb - 通过从值中转义 html 标记来进行 Mongo 字段搜索
- docker - 尝试在 Centos 7 上运行 kubeadm init 时出错
- sql - 将所有列名收集到一个表中