首页 > 解决方案 > 从 Kafka 读取数据时如何优化 Spark Streaming 作业的延迟?

问题描述

问题描述

我想加快我的流媒体管道。到目前为止,批处理的处理时间约为 10 秒。同样在 2-3 个月内,我预计 x3 消息会增长。

管道描述

我有 Spark Streaming 作业,它从 Kafka 主题读取数据,对其进行处理(反序列化和丰富数据集)并将输出写入输出主题。

卡夫卡配置

火花配置

已经做了什么?

所以我正在寻找一种方法来并行化 Spark 方面的工作。有什么想法可以在这里做吗?

标签: apache-sparkapache-kafkaspark-streaming

解决方案


推荐阅读