首页 > 解决方案 > 来自 Apache Kafka 的 Spark Streaming

问题描述

我遇到了以下情况

有关可能的 kafkaParams,请参阅 Kafka 消费者配置文档。如果您的 Spark 批处理持续时间大于默认的 Kafka 心跳会话超时(30 秒),请适当增加 heartbeat.interval.ms 和 session.timeout.ms。对于大于 5 分钟的批次,这将需要更改代理上的 group.max.session.timeout.ms

在此链接上 https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

如果我在 spark conf 上设置了以下属性,这是否适用

conf.set("spark.streaming.kafka.consumer.poll.ms", "5000")

另外,将 heartbeat.interval.ms 和 session.timeout.ms 设置为大于 kafka 流批处理持续时间的原因是什么?kafka 的心跳不会响应消费者投票请求吗?

我还在本地机器上运行 spark 流应用程序和 kafka。我的batch size是1分钟,我的kafka配置如下

heartbeat.interval.ms = 3000
session.timeout.ms = 30000

但是,当批处理持续时间为 1 分钟及以上的心跳间隔和会话超时值运行时,我并没有真正看到任何问题。我在这里错过了什么吗?

标签: apache-sparkapache-kafkaspark-streamingspark-streaming-kafka

解决方案


推荐阅读