首页 > 解决方案 > 存储 DStream、检查点、持久化?

问题描述

我是火花流编程的新手。如何显示结果并存储它,然后新结果取决于新的 DStream 和这个旧结果。spark版本=1.6.0 kafka版本2.10和java

请帮忙。

标签: javaapache-kafkaspark-streaming

解决方案


您可以使用 persist() 方法将中间结果保存在内存或磁盘中,具体取决于数据量。这可以在下一个 dstream 处理中访问。检查点用于在流作业重新启动的情况下从故障点重新启动作业。Spark 默认检查点跟踪上次成功读取的 kafka 消息并保存偏移量。但在 2.2 版本的 spark 之前它确实存在一个错误,它将重新处理最后一次成功的 dstream 批处理在重新启动时再次成功。请参阅下面的 spark 文档。 https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--persistence


推荐阅读