首页 > 解决方案 > 可以在 Kafka Streams 中进行自我加入吗?

问题描述

我们将 Kafka Streams 视为解决飞行中比较的一种方式。具体来说,我们有数据以每秒约 15,000 个事务的顺序到达 Kafka 主题,我们希望在记录滚动时对它们进行比较操作。记录非常宽(1900 列左右),但比较操作发生在极少数列(~10-20)上。我们的比较窗口大约是一分钟。

场景将是这样的:

我们希望能够读取流,确定消息 1、4 和 6 都符合我们的比较标准,然后丢弃消息 1 和 6,同时保留消息 4。

我在 2016 年 11 月发现 Gouzhang Wang 的评论建议通过处理器 API 实现这一点。这仍然是当前最好的方法吗?

标签: apache-kafkaapache-kafka-streams

解决方案


推荐阅读