apache-kafka - 通过kafka复制文件并防止重复数据

我有兴趣通过 kafka 通道实时发布文件的内容（我可以在 python 中做到这一点），但我想知道如果我的发布者崩溃并且我需要重新启动它，什么策略可以有效地防止发送重复数据？kafka 中有什么可以直接帮助解决这个问题，还是我必须明确跟踪我迄今为止发布的文件偏移量？

我想另一种方法可能是发布者引导已经发布的数据并计算接收到的字节然后文件查找和恢复？

是否有任何现有的脚本或应用程序可以处理这个问题，我也许可以利用？

标签： apache-kafkakafka-producer-api

我强烈建议不要自己发布，而是使用 Kafka Connect。除了不必编写自定义代码之外，连接器还可以为您支持“exactly-once”功能。

有关连接器的更多详细信息，请参见：https ://www.confluent.io/product/connectors/