首页 > 解决方案 > 使用flafka从数据源到HDFS的相同文本文件

问题描述

我正在开发以下架构:

1)flume agent_a 在数据源目录中拖尾文本文件并将它们移动到 kafka 主题中。

2)flume agent_b 将文本文件从 kafka 主题移动到 hdfs。

我对这个问题有点困惑:

我如何确定 agent_b 将从 kafka 主题中获取数据,以便在 HDFS 中摄取与 agent_a 从数据源目录中获取的完全相同的文本文件(同一行,以相同的顺序)?

Tnks

标签: apache-kafkahdfsflume-ng

解决方案


Flume 应该维护输入文件的源偏移量,并按该顺序将它们批处理到 Kafka Producer 中。

但是,如果您在 Kafka 主题中有多个分区,则无法做出任何排序保证。


推荐阅读