apache-spark - spark流检查点:数据检查点控制
问题描述
我对火花流检查点有些困惑,请帮助我,谢谢!
有两种类型的检查点(元数据和数据检查点)。指南说,在使用有状态转换时,会使用数据检查点。我对此感到非常困惑。如果我不使用有状态转换,spark 是否仍然编写数据检查点内容?
我可以控制代码中的检查点位置吗?我可以控制哪个 rdd 可以写入流中的数据检查点数据,如批处理 Spark 作业吗?我可以
rdd => rdd.checkpoint()
在流媒体中使用 foreachRDD 吗?如果我不使用
rdd.checkpoint()
,Spark 的默认行为是什么?哪个rdd可以写入HDFS?
解决方案
您可以通过此链接找到出色的指南。
- 不,不需要检查点数据,因为在无状态计算的情况下不需要中间数据。
- 我认为在流式计算之后不需要检查点任何 rdd。rdd 检查点旨在解决沿袭问题,流检查点是关于流的可靠性和故障恢复。
推荐阅读
- c# - 发布版本中抽象页面的问题
- tensorflow - 如何在 keras.models.save_model 中设置签名
- java - otp auth 的 Firebase 授权错误
- ios - 快速点击按钮时将单元格添加到表格视图
- javascript - firebase.initializeApp 在我的 dotenv 文件中找不到 API 密钥。(Next.js)
- c - 进程在代码块中以状态 1 终止
- php - 如何使用 Laravel POST 请求将数据库中的 select2 值数组存储为文本
- javascript - 将图像 url 发送到另一个 php 页面
- reactjs - 在 React 中从子功能组件更改父组件状态
- android - 原始数组的json异常