首页 > 解决方案 > 使用稍后可能出现的批处理数据来丰富 ElasticSearch 中近乎实时的数据的最佳方法是什么?

问题描述

我的弹性搜索中有两种类型的索引。第一个包含近实时更新的数据。第二个是我可以用来增强每晚更新的第一个的数据。我是弹性搜索的新手,我想知道是否有任何好的模式可以轻松地让我用每晚的批次更新流数据。

我查看了浓缩处理器,但这似乎在索引时丰富了。我拥有的浓缩数据可能在那里,或者可能会在那天晚上出现。

我的目标是创建一个仪表板,使用丰富索引来帮助识别我关心的流数据中的哪些文档;并最终从那里添加更多领域进行详细探索。在 SQL 术语中:“计算丰富数据中存在流文档 ID 的文档数量”,但这几乎是一个 JOIN,我相信鉴于两个索引都很大,我应该避免这种情况。

标签: elasticsearch

解决方案


丰富处理器可以在索引时运行,也可以在文档已经使用_update_by_query端点索引之后运行。

这个想法是这样的:你实时索引你的流数据。一旦你的第二个数据集进来,你可以创建一个新的索引来存储它,然后从中创建一个丰富的索引,最后用enrich处理器更新你的第一个数据集。


推荐阅读