首页 > 解决方案 > Apache spark + confluent 平台集成和写入 hdfs 文件

问题描述

我正在使用火花流处理来自融合平台的数据,并在对记录进行少量转换后写入 hdfs。
我已经配置了 spark 集群 16 个执行器和每个执行器 4 个核心,而 Kafka 设置是一个具有 72 个分区的主题。

面临的问题是,始终只有一个执行者将所有记录写入 hdfs。
我已经从 spark UI 确认了这一点,并执行 Kafka cli 命令来描述我的 kafa 主题的消费者组,显示只有一个唯一的主机地址从 spark 集群连接到 kafka。

因此,无论 Spark 集群和 Kafka 集群是否增加,我的应用程序都不会水平扩展。

示例粗略代码。

Dstream ds = kutils.createdirectstream (locationstrategies.preferconsistent,topics,params);

Dt= Ds converted to dataset by applying schema;

Dt.write hdfs .mode append .format parquet;

抱歉,我无法访问真实代码。以上只是一个模板。

请帮忙。

标签: apache-sparkapache-kafkahdfs

解决方案


推荐阅读