首页 > 解决方案 > 如何查找 Spark 在 RDD 或 Dataframe 的内存和磁盘中保留了多少数据

问题描述

缓存数据帧后。我们如何计算有多少数据保存在内存和磁盘中。

任何试图缓存的数据框

source_df.cache()

标签: apache-spark

解决方案


在火花 UI 中有一个选项卡“存储”。这将向您显示您需要的信息。这是另一个问题的屏幕截图(Spark Structured Streaming - UI Storage Memory value increasing):

Spark UI 的存储选项卡

spark UI 中的更多信息可以在文档https://spark.apache.org/docs/latest/monitoring.html中找到


推荐阅读