首页 > 解决方案 > 如何加载检查点 pyspark 数据框

问题描述

我下面的代码崩溃了,而不是从头开始,我想从最后一个检查点数据帧开始。我怎样才能加载它?我的目录中有这个文件夹/tmp/53af5ba0-4419-4ab9-93c0-e5f69fd1c8eb

spark.sparkContext.setCheckpointDir("/tmp")

df_1 = df.randomSplit([1.0] * 10, 123456)

for i in range(len(df_1)):
   df_1[i]=df_1[i].join(df_2)
   df_1[i].checkpoint()
   print(f'df[{i}] checkpointed!')
                                                              

标签: pythonpysparkapache-spark-sqlspark-checkpoint

解决方案


推荐阅读