elasticsearch - 使用稍后可能出现的批处理数据来丰富 ElasticSearch 中近乎实时的数据的最佳方法是什么?
问题描述
我的弹性搜索中有两种类型的索引。第一个包含近实时更新的数据。第二个是我可以用来增强每晚更新的第一个的数据。我是弹性搜索的新手,我想知道是否有任何好的模式可以轻松地让我用每晚的批次更新流数据。
我查看了浓缩处理器,但这似乎在索引时丰富了。我拥有的浓缩数据可能在那里,或者可能会在那天晚上出现。
我的目标是创建一个仪表板,使用丰富索引来帮助识别我关心的流数据中的哪些文档;并最终从那里添加更多领域进行详细探索。在 SQL 术语中:“计算丰富数据中存在流文档 ID 的文档数量”,但这几乎是一个 JOIN,我相信鉴于两个索引都很大,我应该避免这种情况。
解决方案
丰富处理器可以在索引时运行,也可以在文档已经使用_update_by_query
端点索引之后运行。
这个想法是这样的:你实时索引你的流数据。一旦你的第二个数据集进来,你可以创建一个新的索引来存储它,然后从中创建一个丰富的索引,最后用enrich
处理器更新你的第一个数据集。
推荐阅读
- python - Python,如何跳过循环中的最后一个逗号?
- mongodb - 如何为多个集合创建 mongodb 聚合查询
- vue.js - 在 vuejs 数据对象属性中使用函数参数
- python - 与包含无穷大的元素的矩阵乘法
- python - 如何从 fastq 文件中删除 SeqRecord 对象
- javascript - React.js 使用 Redirect 的简单路由保护
- python - 根据列值和字符串命名写入 excel 文件
- graphql - Elixir Absinthe Relay 在连接 node_type 上使用 non_null
- postgresql - 从异步开始但连续运行的日期范围中查找结束日期
- azure - 有没有一种方法可以与 AKS 集群 2 中的 Hazelcast 服务器成员(D、E、F)共享 AKS 集群 1 中 Hazelcast 服务器成员(A、B、C)中存储的数据