apache-kafka - 通过kafka复制文件并防止重复数据
问题描述
我有兴趣通过 kafka 通道实时发布文件的内容(我可以在 python 中做到这一点),但我想知道如果我的发布者崩溃并且我需要重新启动它,什么策略可以有效地防止发送重复数据?kafka 中有什么可以直接帮助解决这个问题,还是我必须明确跟踪我迄今为止发布的文件偏移量?
我想另一种方法可能是发布者引导已经发布的数据并计算接收到的字节然后文件查找和恢复?
是否有任何现有的脚本或应用程序可以处理这个问题,我也许可以利用?
解决方案
我强烈建议不要自己发布,而是使用 Kafka Connect。除了不必编写自定义代码之外,连接器还可以为您支持“exactly-once”功能。
有关连接器的更多详细信息,请参见:https ://www.confluent.io/product/connectors/
推荐阅读
- android - 如何在 RecyclerView 上为每个更改 LinearLayout bg
- javascript - PrivateRoute 在 reactjs react-router-dom 中不起作用
- azure - 使用 Azure 从 Rest API 引入数据
- r - 使用循环对多个变量进行时间序列预测?
- reactjs - fetch() 帖子的响应不正确
- javascript - 在下拉菜单中重新启用/禁用选项值
- reporting-services - SSRS URL Java 字段值链接
- python - 如何将 OpenCV 设置为使用原点作为图像的左下角?
- vue.js - Electron Webpack Vue 全局变量
- xamarin.forms - Xamarin .Net Standard 2.0 的 ModernHttpClient 替代选项