apache-spark - 在阅读多分区 kafka 主题时,如何启动和调用 spark 结构化流式消费者?
问题描述
如果一个 kakfa 主题有多个 partition ,在 java 中,那些许多消费者实例/线程将在消费者端实例化。
如何在火花流消费者方面处理它?我没有找到很多关于相同的信息。相同的任何样本,即在主题的 spark-streaming-consumer 调用多个消费者。
任何设计建议/示例将不胜感激。
问候, 希亚姆
解决方案
如果Kafka有多个分区,这意味着消费者可以通过并行执行某项任务来从中受益。特别是内部的spark-streaming可以通过增加 num-executors 参数来加速作业。这与 Kafka 拥有的分区数量有关,例如,如果您的 Kafka 分区数量与 spark 中的 num-executors 数量相同,理论上所有 executor 可以一次读取所有分区,这显然会增加系统吞吐量。
推荐阅读
- c# - 查找与所有其他项目相关的项目
- r - 如何根据列的范围(即<15,15-30等...)创建因子变量
- php - 多个 elseif 语句的问题
- python - pyodbc connection.close() 使用 Access 数据库非常慢
- parameters - Verilog - 在生成块中增加本地参数
- java - 在 Eclipse 上按“运行”时无法(同时)启动游戏和音乐
- aws-glue - 实例运行时是否可以修改 AWS Glue 脚本
- jquery - 单击后关闭工具提示
- c - 缺少显式类型(假定为“int”)
- excel-formula - 条件位于相邻列中的 Excel 列总和