首页 > 解决方案 > Spark Streaming 调整每批大小的记录数在几批后不起作用?

问题描述

我的 spark 流应用程序正在使用 DStream 方法从 kafka 读取数据,我试图让批处理大小在 60 秒内处理 36,000 条消息。

我正在使用来自 600 个分区的 kafka 主题的消息。

使用上述配置,我希望每批 (600*1*60) 获得 36000 条记录,并且它在最初的几批中按预期工作,但之后主题中的所有记录都被转储到一批中。

注意:我使用的是 Auto Scaling 集群,是否需要设置其他参数?

在此处输入图像描述

标签: javaapache-sparkapache-kafkaspark-streamingrdd

解决方案


推荐阅读