首页 > 解决方案 > 如何在 pyspark 中的 AWS Glue 作业中避免 OOM 错误

问题描述

我在使用 40 个工作人员运行 AWS Glue 作业并处理 40GB 数据时遇到此错误

Caused by: org.apache.spark.memory.SparkOutOfMemoryError: error while calling spill() on org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter@5fa14240 : No space left on device

我如何优化我的工作以避免在 pyspark 上出现此类错误

这是指标 glue_metrics的图片

标签: pythonapache-sparkpysparkaws-glue

解决方案


推荐阅读