apache-spark - Apache spark + confluent 平台集成和写入 hdfs 文件

问题描述

我正在使用火花流处理来自融合平台的数据，并在对记录进行少量转换后写入 hdfs。
我已经配置了 spark 集群 16 个执行器和每个执行器 4 个核心，而 Kafka 设置是一个具有 72 个分区的主题。

面临的问题是，始终只有一个执行者将所有记录写入 hdfs。
我已经从 spark UI 确认了这一点，并执行 Kafka cli 命令来描述我的 kafa 主题的消费者组，显示只有一个唯一的主机地址从 spark 集群连接到 kafka。

因此，无论 Spark 集群和 Kafka 集群是否增加，我的应用程序都不会水平扩展。

示例粗略代码。

Dstream ds = kutils.createdirectstream (locationstrategies.preferconsistent,topics,params);

Dt= Ds converted to dataset by applying schema;

Dt.write hdfs .mode append .format parquet;

抱歉，我无法访问真实代码。以上只是一个模板。

请帮忙。

标签： apache-sparkapache-kafkahdfs

apache-spark - Apache spark + confluent 平台集成和写入 hdfs 文件

问题描述

解决方案

推荐阅读