elasticsearch - ElasticSearch - 获取多次出现
问题描述
假设我在弹性搜索中有一些数据,我想检索一个特定字段多次出现的所有记录。例如:
{id:1, name: "bob", "age":30}
{id:2, name: "mike", "age":20}
{id:3, name: "bob", "age":30}
{id:4, name: "sarah", "age":40}
{id:5, name: "mike", "age":35}
我想要一个按名称返回多次出现的查询。所以它应该返回以下记录:
{id:1, name: "bob", "age":30}
{id:2, name: "mike", "age":20}
{id:3, name: "bob", "age":30}
{id:5, name: "mike", "age":35}
所以 id: 4 被排除在外,因为“sarah”这个名字只出现在一个文档中。更可取的回报是这样的:
{"name": "bob", "count":2}
{"name": "mike", "count":2}
但如果更容易,可以使用第一个查询返回。
解决方案
Aggregations
您可以使用Elasticsearch中所谓的内容。如果您只是在寻找重复的名称,您可以使用Terms Aggregation
.
这是一个例子。您可以像这样设置数据:
PUT testing/_doc/1
{
"name": "bob",
"age": 30
}
PUT testing/_doc/2
{
"name": "mike",
"age": 20
}
PUT testing/_doc/3
{
"name": "bob",
"age": 30
}
PUT testing/_doc/4
{
"name": "sarah",
"age": 40
}
PUT testing/_doc/5
{
"name": "mike",
"age": 20
}
然后运行你的聚合:
GET testing/_doc/_search
{
"size": 0,
"query": {
"match_all": {}
},
"aggs": {
"duplicates": {
"terms": {
"field": "name.keyword",
"min_doc_count": 2
}
}
}
}
这会给你这样的回应:
{
"took": 6,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 5,
"max_score": 0,
"hits": []
},
"aggregations": {
"duplicates": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "bob",
"doc_count": 2
},
{
"key": "mike",
"doc_count": 2
}
]
}
}
}
重要的部分是aggregations.duplicates.buckets
中"name"
显示的位置"key"
。
推荐阅读
- docker - Docker共享驱动器无法登录
- python - Python 中的 While 循环替代方案
- python - 表达式“print(1) 和 print(”0") 在 python 中返回什么?
- android - 为什么即使我将我的应用程序设置为外部存储,我也可以访问内部存储?
- java - 从Java中具有不同大小的2个数组列表中查找不相似的元素
- c++ - iOS 11.4.1 上的 Qt C++ 隐藏键盘
- assembly - resb 是创建指针还是未初始化的变量?
- python - 如何在没有静态的情况下在 Django 模板中显示图像?
- amazon-web-services - 将 Kafka 集群连接到 Aws Ec2 实例
- reactjs - 如何将 Shopify 网站集成到 React Native 应用程序中