apache-spark - 增量表作为流源。如何计算消费滞后
问题描述
我正在使用 apace spark 结构化流从增量表中流式传输数据。问题是我对消费者滞后一无所知。我们如何计算消费者滞后?
我也扔掉了每批创建的检查点文件,但它只有一个时代的时间戳。
.format("delta")
.load("/mnt/delta/events")
.groupBy("customerId")
.count()
.writeStream
.format("delta")
.outputMode("complete")
.option("checkpointLocation", "/mnt/delta/eventsByCustomer/_checkpoints/streaming-agg")
.start("/mnt/delta/eventsByCustomer")
解决方案
推荐阅读
- html - 输入类型文本为带斜线的格式化日期
- css - 媒体查询功能中从地图生成 SASS 动态颜色
- android - 如何在 google play 上检查另一个 android 应用程序的许可证有效性
- html - XSLT 如果条件抛出 - 缺少必需的属性“测试”
- python - 如何从python中的数组中删除分号?
- java - java scheduleWithFixedDelay 内存泄漏
- modal-dialog - Vue.js 2:模式对话框 - 方法成功时关闭
- mysql - Mysql查找所有用户的共同值
- javascript - 忽略承诺拒绝的简单方法
- apache-spark - Python Spark:.distinct().count() 和 countDistinct() 之间的区别