首页 > 解决方案 > 计算一个索引中每个字段的所有出现次数

问题描述

我想计算一个索引的弹性搜索数据库中的每个字段有多少条目。我已尝试使用下面的代码,但这仅返回条目总数。我正在使用 Python。

到目前为止我已经尝试过:

qry = {
"aggs": {
"field": {
"terms" : {"field": "field"}
}
}, "size": 0
}

r = es.search(body=qry,
              index="webhose_english")

我目前的结果:

Out[64]: 
{'_shards': {'failed': 0, 'skipped': 0, 'successful': 5, 'total': 5},
'aggregations': {'field': {'buckets': [],
'doc_count_error_upper_bound': 0,
'sum_other_doc_count': 0}},
'hits': {'hits': [], 'max_score': 0.0, 'total': 4519134},
'timed_out': False,
'took': 16}

理想情况下,我会有类似的东西:

{'field_1': 321,
 'field_2': 231,
 'field_3': 132}

标签: pythonelasticsearchelasticsearch-aggregation

解决方案


此信息曾经是_field_statsAPI的一部分,但在 6.0 中已被删除。所以你在正确的轨道上,你需要一个聚合。我认为value_count这是您需要的,而且我也添加了一个很好的衡量标准global,所以我们知道总共有多少文件。

三个示例文档:

PUT foo/_doc/1
{
  "foo": "bar"
}
PUT foo/_doc/2
{
  "foo": "bar",
  "bar": "bar"
}
PUT foo/_doc/3
{
  "foo": "bar",
  "bar": "bar",
  "baz": "bar"
}

聚合(我不确定是否可能有一个较短的版本,尤其是对于许多字段):

GET foo/_search
{
  "aggs": {
    "count_fields": {
      "global": {},
      "aggs": {
        "count_foo": {
          "value_count": {
            "field": "foo.keyword"
          }
        },
        "count_bar": {
          "value_count": {
            "field": "bar.keyword"
          }
        },
        "count_baz": {
          "value_count": {
            "field": "baz.keyword"
          }
        }
      }
    }
  },
  "size": 0
}

结果:

{
  "took" : 16,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 3,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "count_fields" : {
      "doc_count" : 3,
      "count_foo" : {
        "value" : 3
      },
      "count_bar" : {
        "value" : 2
      },
      "count_baz" : {
        "value" : 1
      }
    }
  }
}

推荐阅读