apache-spark - 磁盘上的 Apache Spark 临时文件大小
问题描述
我有一个设置,其中来自 Kafka 集群的传入数据由 Apache Spark 流作业处理。
版本信息:- Kafka = 0.8.x Spark 版本 = 2.3.1
最近在增加 Kafka 集群的容量(通过添加新节点)时,我们突然看到 spark 集群的磁盘使用量呈指数级增长(大部分空间被 spark 临时文件占用)
我不确定这些是否相关并且想要一些指针来解决/调试相同的问题。
作为预防措施,我们增加了火花簇的磁盘空间以避免“设备上没有剩余空间”错误。
解决方案
推荐阅读
- react-native - 应用名称在 iOS 上显示为 __RN_CONFIG_DISPLAY_NAME
- python - 如何使用美丽的汤4渲染内联元素
- flutter - 使圆形头像显示在屏幕顶部
- yaml - 我的 GitHub 操作中嵌入式 shell 脚本的 YAML 语法有什么问题?
- .net - 为什么 SrCnn 的异常检测有两种方法 | DetectEntireAnomalyBySrCnn & DetectAnomalyBySrCnn?
- dart - 为什么是数量++;与打印(数量++)不一样;?这是一个陷阱吗?
- flutter - 如何在 FlutterQuill 编辑器中编写代码进行存储
- c - 交叉编译手臂数学
- json - 如果响应正文中的 id 具有依赖性,如何使用预请求脚本在邮递员中设置 2 个集合变量?
- php - 来自 Active Directory 的 LDAP 查询