首页 > 解决方案 > Spark 结构化流式传输是否适合亚秒级延迟的流式传输作业?

问题描述

我正在开发一个需要亚秒级延迟端到端的流媒体项目。换句话说,从事件生成到登陆数据仓库(本例中为 BigQuery)应该小于 1 秒。

我们选择 Spark 结构化流作为实时处理引擎。但是,从我们的性能测试来看,处理大约 100 条记录的 mini-bach 至少需要 3 秒。转换涉及一个简单的 groupBy 逻辑,具有 1 天的滚动窗口。

我试图调整几个因素:

但是上述方法都不能满足我们的延迟要求。

所以我的问题是:

非常感谢。

标签: apache-sparkspark-structured-streaming

解决方案


推荐阅读