python - 如何加载检查点 pyspark 数据框
问题描述
我下面的代码崩溃了,而不是从头开始,我想从最后一个检查点数据帧开始。我怎样才能加载它?我的目录中有这个文件夹/tmp/53af5ba0-4419-4ab9-93c0-e5f69fd1c8eb
spark.sparkContext.setCheckpointDir("/tmp")
df_1 = df.randomSplit([1.0] * 10, 123456)
for i in range(len(df_1)):
df_1[i]=df_1[i].join(df_2)
df_1[i].checkpoint()
print(f'df[{i}] checkpointed!')
解决方案
推荐阅读
- html - 标题内部的CSS垂直对齐中心
- c# - 如何查看本地 Git 存储库的头部更改?
- python-3.x - etree.fromstring(response.text.encode('utf-8'), parser=etree.XMLParser(huge_tree=self.huge_tree))
- python - 如何计算给定的经度和纬度是否属于多边形区域?
- sas - SAS proc 逻辑是否执行变量选择?
- sql - 从表中检索 COUNT(*) 不一致
- riscv - 在 RISC-V 中访问硬件性能计数器
- javascript - PHP SQL 帖子部分
- node.js - mongo db atlas 中的连接是什么?
- android - (Android) 意外匹配 Pattern.compile("\\w+") 与 unicode 字母