apache-spark - 每天从 Azure EventHub 读取批量数据
问题描述
大家好,
我需要从 Azure EventHub 读取流数据并将其转储到 blob 位置。根据成本优化,我不能更喜欢流分析或 Spark 流。我只能使用 Spark 批处理作业,我需要探索如何从 Azure EventHub 作为批处理读取数据(最好是前一天的数据)并将其转储到 blob。我的 Azure EventHub 保存 4 天的数据,我需要确保每次从 Azure EventHub 读取数据时都应避免重复。
我计划每天使用spark从azure event-hub读取一次数据,有没有一种方法可以在每次读取数据时保持一些顺序以避免重复。
任何帮助将不胜感激。
解决方案
推荐阅读
- python - 如何使用来自 python 的请求使用 opencv 从 url 打开图像
- reactjs - 使用 ESLint 时如何修复“意外令牌”?
- javascript - 从 TypeScript 生成 ES6 模块输出,安装 Jest,不会产生错误
- python - 我做错了什么并且可以通过这个程序改进吗?
- powershell - 使用参数测量启动过程的运行时间
- c# - C# Xamarin Forms Listview 将 BindingContext 设置为嵌套列表
- sql - 如何获取一个产品库存数据的运行数量达到指定限制的行?
- java - 如何访问存储库中的上下文 [MVVM]
- python - 完全禁用 TensorFlow 日志记录
- sql - pg_get_serial_sequence 无法识别表名