首页 > 解决方案 > 磁盘上的 Apache Spark 临时文件大小

问题描述

我有一个设置,其中来自 Kafka 集群的传入数据由 Apache Spark 流作业处理。

版本信息:- Kafka = 0.8.x Spark 版本 = 2.3.1

最近在增加 Kafka 集群的容量(通过添加新节点)时,我们突然看到 spark 集群的磁盘使用量呈指数级增长(大部分空间被 spark 临时文件占用)

我不确定这些是否相关并且想要一些指针来解决/调试相同的问题。

作为预防措施,我们增加了火花簇的磁盘空间以避免“设备上没有剩余空间”错误。

标签: apache-sparkapache-kafka

解决方案


推荐阅读