java - Spark Streaming 调整每批大小的记录数在几批后不起作用？

我的 spark 流应用程序正在使用 DStream 方法从 kafka 读取数据，我试图让批处理大小在 60 秒内处理 36,000 条消息。

我正在使用来自 600 个分区的 kafka 主题的消息。

使用上述配置，我希望每批 (600*1*60) 获得 36000 条记录，并且它在最初的几批中按预期工作，但之后主题中的所有记录都被转储到一批中。

注意：我使用的是 Auto Scaling 集群，是否需要设置其他参数？

标签： javaapache-sparkapache-kafkaspark-streamingrdd