首页 > 解决方案 > 使用 Azure EventHub 进行 Spark 结构化流式处理

问题描述

在使用 Azure EventHub 进行 Spark Streaming 的上下文中,从技术上讲,我需要一些帮助来理解黑白 EventPosition.fromStartOfStream、EventPosition.fromEndOfStream 的区别。如果我每天只需要在启用检查点的情况下触发一次流式传输作业,那么下面的代码会有什么不同。

浏览了几个文档,找不到太多关于此的信息。任何帮助,将不胜感激。

val ehConf = EventHubsConf(cs).setStartingPositions(positions).setStartingPosition(EventPosition.fromStartOfStream)

val ehConf = EventHubsConf(cs).setStartingPositions(positions).setStartingPosition(EventPosition.fromEndOfStream)

标签: apache-sparkspark-streamingazure-eventhub

解决方案


如果您正在检查点,那么 setStartingPosition 给出的位置将没有任何用处。它仅在没有找到检查点时使用。

请在此处查看示例代码和描述 - https://github.com/Azure/azure-event-hubs-spark/blob/564267dd1287b0593f8914b1acf8ff7796b58e3b/docs/spark-streaming-eventhubs-integration.md#per-partition-configuration


推荐阅读