首页 > 解决方案 > 在阅读多分区 kafka 主题时,如何启动和调用 spark 结构化流式消费者?

问题描述

如果一个 kakfa 主题有多个 partition ,在 java 中,那些许多消费者实例/线程将在消费者端实例化。

如何在火花流消费者方面处理它?我没有找到很多关于相同的信息。相同的任何样本,即在主题的 spark-streaming-consumer 调用多个消费者。

任何设计建议/示例将不胜感激。

问候, 希亚姆

标签: apache-sparkapache-kafkaspark-streamingkafka-consumer-api

解决方案


如果Kafka有多个分区,这意味着消费者可以通过并行执行某项任务来从中受益。特别是内部的spark-streaming可以通过增加 num-executors 参数来加速作业。这与 Kafka 拥有的分区数量有关,例如,如果您的 Kafka 分区数量与 spark 中的 num-executors 数量相同,理论上所有 executor 可以一次读取所有分区,这显然会增加系统吞吐量。


推荐阅读