首页 > 解决方案 > spark流检查点:数据检查点控制

问题描述

我对火花流检查点有些困惑,请帮助我,谢谢!

  1. 有两种类型的检查点(元数据和数据检查点)。指南说,在使用有状态转换时,会使用数据检查点。我对此感到非常困惑。如果我不使用有状态转换,spark 是否仍然编写数据检查点内容?

  2. 我可以控制代码中的检查点位置吗?我可以控制哪个 rdd 可以写入流中的数据检查点数据,如批处理 Spark 作业吗?我可以 rdd => rdd.checkpoint()在流媒体中使用 foreachRDD 吗?

  3. 如果我不使用rdd.checkpoint(),Spark 的默认行为是什么?哪个rdd可以写入HDFS?

标签: apache-sparkstreamingcheckpoint

解决方案


您可以通过此链接找到出色的指南。

  1. 不,不需要检查点数据,因为在无状态计算的情况下不需要中间数据。
  2. 我认为在流式计算之后不需要检查点任何 rdd。rdd 检查点旨在解决沿袭问题,流检查点是关于流的可靠性和故障恢复。

推荐阅读