apache-kafka - 使用flafka从数据源到HDFS的相同文本文件
问题描述
我正在开发以下架构:
1)flume agent_a 在数据源目录中拖尾文本文件并将它们移动到 kafka 主题中。
2)flume agent_b 将文本文件从 kafka 主题移动到 hdfs。
我对这个问题有点困惑:
我如何确定 agent_b 将从 kafka 主题中获取数据,以便在 HDFS 中摄取与 agent_a 从数据源目录中获取的完全相同的文本文件(同一行,以相同的顺序)?
Tnks
解决方案
Flume 应该维护输入文件的源偏移量,并按该顺序将它们批处理到 Kafka Producer 中。
但是,如果您在 Kafka 主题中有多个分区,则无法做出任何排序保证。
推荐阅读
- c++ - 如何将双精度值直接转换为 PQ^-1 模 MOD,其中 q 与 MOD 互质
- perforce - 检查给定的 perforce 标签是否存在
- python - 检索对象
- excel - 使用 VBA 在 Google 表单中选择下拉列表选项
- php - 如何将图像路径存储到表中?
- flutter - 颤振错误:未处理的异常:将 RCPT 发送到:<> 后,响应没有以任何开头:[2]
- python-3.x - 在 DataFrame 中选择元素
- angular - 单击组件 A 功能我想使用服务打印组件 B 中的一些数据
- vue.js - 如何全局导入 VueJs 指令
- excel - 从表中创建散点图数据