apache-spark - 来自 Apache Kafka 的 Spark Streaming
问题描述
我遇到了以下情况
有关可能的 kafkaParams,请参阅 Kafka 消费者配置文档。如果您的 Spark 批处理持续时间大于默认的 Kafka 心跳会话超时(30 秒),请适当增加 heartbeat.interval.ms 和 session.timeout.ms。对于大于 5 分钟的批次,这将需要更改代理上的 group.max.session.timeout.ms
在此链接上 https://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html
如果我在 spark conf 上设置了以下属性,这是否适用
conf.set("spark.streaming.kafka.consumer.poll.ms", "5000")
另外,将 heartbeat.interval.ms 和 session.timeout.ms 设置为大于 kafka 流批处理持续时间的原因是什么?kafka 的心跳不会响应消费者投票请求吗?
我还在本地机器上运行 spark 流应用程序和 kafka。我的batch size是1分钟,我的kafka配置如下
heartbeat.interval.ms = 3000
session.timeout.ms = 30000
但是,当批处理持续时间为 1 分钟及以上的心跳间隔和会话超时值运行时,我并没有真正看到任何问题。我在这里错过了什么吗?
解决方案
推荐阅读
- machine-learning - 建立一个预测功能——这个功能实际上是“预测”还是“分类”?
- python - guild.text_channels 只返回 1 个频道而不是所有频道
- java - 通过访问列表来计算从文件中读取并存储在列表中的单词数
- rust - 使用 Append(false) 写入文件未按预期工作
- android-studio - 获取 Gradle 同步失败:从 git 导入 android 项目时出现 java.lang.NullPointerException
- c - 通过输入重定向读取输入后如何将scanf输入切换为标准终端输入
- c# - 不安全的方法在没有 /unsafe 的情况下无法重写
- tensorflow - 我试图训练一个基于MobilenetV2的图像分类器,但是loss一直无法收敛,我不确定我是否正确使用了tensorflow
- c++ - 如果 RMW 操作没有任何改变,是否可以针对所有内存订单进行优化?
- uwp - 据报道我的 uwp 应用程序在启动时崩溃