apache-spark - 内存中的 DataFrame 寿命,Spark?
问题描述
我的问题与内部 sprak 中的内存管理和 GC 更相关。
如果我要创建一个 RDD,它将在我的 Executor 内存中保留多长时间。
# Program Starts
spark = SparkSession.builder.appName("").master("yarn").getOrCreate()
df = spark.range(10)
df.show()
# other Operations
# Program end!!!
- 一旦我的执行完成,它会被自动删除吗?如果是,有没有办法在程序执行期间手动删除它。
- 在 Spark 中调用垃圾收集的方式和时间。我们可以像 JAVA 程序一样实现自定义 GC 并在 Spark 中使用它。
解决方案
- DataFrame 是 Java 对象,因此如果没有找到引用,您的对象就有资格进行垃圾回收
- 无法调用自定义 gc
推荐阅读
- python - 当使用 pandas 在 csv 中满足条件时,需要删除行并更新其他行
- android - 房间迁移?
- customization - Netsuite 字段未显示在套件记录中
- ios - 创建相机无法通过的实体场景包节点
- javascript - Javascript Youtube Data API v3:在播放列表中插入视频(找不到视频)
- angular - 模块中的 Angular 6 访问服务给出错误“模块没有导出成员”
- r - 如何使用 SHINY 中另一个脚本上的按钮运行另一个 rscript
- docker - 无法从外部主机访问 docker 容器中的服务器
- docker - 在执行“docker run”时获取当前指令的执行日志
- c++ - 表达式模板代码未完全优化