apache-spark - Apache spark + confluent 平台集成和写入 hdfs 文件
问题描述
我正在使用火花流处理来自融合平台的数据,并在对记录进行少量转换后写入 hdfs。
我已经配置了 spark 集群 16 个执行器和每个执行器 4 个核心,而 Kafka 设置是一个具有 72 个分区的主题。
面临的问题是,始终只有一个执行者将所有记录写入 hdfs。
我已经从 spark UI 确认了这一点,并执行 Kafka cli 命令来描述我的 kafa 主题的消费者组,显示只有一个唯一的主机地址从 spark 集群连接到 kafka。
因此,无论 Spark 集群和 Kafka 集群是否增加,我的应用程序都不会水平扩展。
示例粗略代码。
Dstream ds = kutils.createdirectstream (locationstrategies.preferconsistent,topics,params);
Dt= Ds converted to dataset by applying schema;
Dt.write hdfs .mode append .format parquet;
抱歉,我无法访问真实代码。以上只是一个模板。
请帮忙。
解决方案
推荐阅读
- python - Kivy 如何在按钮之间切换
- netlogo - Netlogo:我可以期待代理,但偶尔没有人
- python - 如何将按钮放置在 tkinter 的给定框架中?
- mysql - Laravel - 数据库中具有不同字段的不同用户
- tree - 给定一棵树,为每个顶点找到到其他顶点的最长路径
- google-cloud-firestore - 对 Firestore 的调用在 Shell 本地工作,但在部署到 Cloud Functions 后出现空错误
- sql - 显示表之间的关系类型
- php - 如何在 Shopware 5 中注册我的服务和组件?
- javascript - 当我在对象文字中使用 await 时程序如何运行?
- node.js - 将 http 请求转发到 https,req.secure 不起作用