apache-spark - 如何查找 Spark 在 RDD 或 Dataframe 的内存和磁盘中保留了多少数据
问题描述
缓存数据帧后。我们如何计算有多少数据保存在内存和磁盘中。
任何试图缓存的数据框
source_df.cache()
解决方案
在火花 UI 中有一个选项卡“存储”。这将向您显示您需要的信息。这是另一个问题的屏幕截图(Spark Structured Streaming - UI Storage Memory value increasing):
spark UI 中的更多信息可以在文档https://spark.apache.org/docs/latest/monitoring.html中找到
推荐阅读
- batch-file - 存储可选管道多行字符串和可选参数的批处理脚本
- python - 以管理员身份运行 Anaconda macOS Catalina
- java - targetCompatability 和使用该 JDK 运行 Gradle 之间有区别吗?
- flutter - xcrun:错误:无效的活动开发者路径,zsh 更新后出现问题
- search - 如何在 Excel 的搜索功能中迭代地更改 inside_text 值
- c# - 为什么调用 SvgDocument.Save() 时对 SvgElements 的更改不可见?
- javascript - 如何使用算术更改 JSON 文件的值?
- javascript - 意外的标记 '?' 使用不和谐播放器时
- c++ - 如何减少对我的两个类中的构造函数的调用次数?
- powershell - Powershell 使用哈希表和 foreach 循环通过 appcmd 设置 appsettings