首页 > 解决方案 > kubernetes Autoscaler - 无法获取 loadbalancing.googleapis.com|https|request_count

问题描述

我正在尝试为两个 Kubernetes 服务定义一个 Horizo​​ntal Pod Autoscaler。

Autoscaler 策略依赖于 3 个指标:

  1. 中央处理器
  2. pubsub.googleapis.com|订阅|num_undelivered_messages
  3. loadbalancing.googleapis.com|https|request_count

CPUnum_undelivered_messages已正确获得,但无论我做什么,我都无法获得request_count指标。

第一个服务是后端服务(服务 A),另一个(服务 B)是一个 API,它使用 Ingress 来管理对服务的外部访问。

Autoscaling 策略基于 Google 文档:Autoscaling Deployments with External Metrics

对于服务 A,以下定义了用于自动缩放的指标:

apiVersion: autoscaling/v2beta1
kind: HorizontalPodAutoscaler
metadata:
  name: ServiceA
spec:
  scaleTargetRef:
    apiVersion: extensions/v1beta1
    kind: Deployment
    name: ServiceA
  minReplicas: 1
  maxReplicas: 3
  metrics:
  - type: Resource
    resource:
      name: cpu
      targetAverageUtilization: 80
  - external:
      metricName: pubsub.googleapis.com|subscription|num_undelivered_messages
      metricSelector:
        matchLabels:
          resource.labels.subscription_id: subscription_id
      targetAverageValue: 100
    type: External

对于服务 B,以下定义了用于自动缩放的指标:

apiVersion: autoscaling/v2beta1
kind: HorizontalPodAutoscaler
metadata:
  name: ServiceB
spec:
  scaleTargetRef:
    apiVersion: extensions/v1beta1
    kind: Deployment
    name: ServiceB
  minReplicas: 1
  maxReplicas: 3
  metrics:
  - type: Resource
    resource:
      name: cpu
      targetAverageUtilization: 80
  - external:
      metricName: loadbalancing.googleapis.com|https|request_count
      metricSelector:
        matchLabels:
          resource.labels.forwarding_rule_name: k8s-fws-default-serviceb--3a908157de956ba7
      targetAverageValue: 100
    type: External      

如上篇文章所定义,metrics server 正在运行,metrics server 适配器部署完成:

$ kubectl get apiservices |egrep metrics
v1beta1.custom.metrics.k8s.io          custom-metrics/custom-metrics-stackdriver-adapter   True        2h
v1beta1.external.metrics.k8s.io        custom-metrics/custom-metrics-stackdriver-adapter   True        2h
v1beta1.metrics.k8s.io                 kube-system/metrics-server                          True        2h
v1beta2.custom.metrics.k8s.io          custom-metrics/custom-metrics-stackdriver-adapter   True        2h

对于服务 A,所有指标 CPU 和 num_undelivered_messages 都正确获取:

$ kubectl get hpa ServiceA
NAME       REFERENCE             TARGETS               MINPODS   MAXPODS   REPLICAS   AGE
ServiceA   Deployment/ServiceA   0/100 (avg), 1%/80%   1         3         1          127m

对于服务 B,HPA 无法获取请求计数:

$ kubectl get hpa ServiceB
NAME                REFERENCE    TARGETS                              MINPODS   MAXPODS   REPLICAS   AGE
ServiceB   Deployment/ServiceB   <unknown>/100 (avg), <unknown>/80%   1         3         1          129m

访问 Ingress 时,我收到以下警告:

无法获取外部指标 default/loadbalancing.googleapis.com|https|request_count/&LabelSelector{MatchLabels:map[string]string{resource.labels.forwarding_rule_name: k8s-fws-default-serviceb--3a908157de956ba7,},MatchExpressions:[] ,}:没有从外部指标 API 返回的指标

转发规则的metricSelector是正确的,在描述入口时已确认(仅显示相关信息):

$ kubectl describe ingress serviceb
Annotations:
  ingress.kubernetes.io/https-forwarding-rule:  k8s-fws-default-serviceb--3a908157de956ba7

我尝试使用不同的指标选择器,例如使用url_map_name,但无济于事,我遇到了类似的错误。

我遵循了 Google 文档中的确切指南,并查看了一些引用完全相同过程的在线教程,但我无法理解我所缺少的内容。我可能缺少一些配置或一些具体细节,但我在任何地方都找不到它的文档。

我错过了什么,这解释了为什么我无法获得loadbalancing.googleapis.com|https|request_count指标?

标签: kubernetesautoscaling

解决方案


您定义的指标似乎在External Metrics API中不可用。要了解发生了什么,您可以直接检查 External Metrics API:

kubectl get --raw="/apis/external.metrics.k8s.io/v1beta1" | jq

输出中是否报告了loadbalancing.googleapis.com|https|request_count指标?

然后,您可以通过以下形式的请求进行更深入的挖掘:

kubectl get --raw="/apis/external.metrics.k8s.io/v1beta1/namespaces/<namespace_name>/<metric_name>?labelSelector=<selector>" | jq

并查看根据您的指标名称和特定指标选择器返回的内容。

这些正是 Horizo​​ntal Pod Autoscaler 在运行时发出的请求。通过手动复制它们,您应该能够查明问题的根源。


关于附加信息的评论:

1) 83m 是 Kubernetes 写入 0.083 的方式(读作 83“毫单位”)。

2)在您的 Horizo​​ntalPodAutoscaler 定义中,您使用targetAverageValue. 因此,如果存在具有此指标的多个目标,HPA 会计算它们的平均值。因此,83m 可能是多个目标的平均值。为确保您仅使用单个目标的指标,您可以使用该targetValue字段(请参阅API 参考)。

3)不知道为什么items: []API 响应中的数组是空的。文档提到采样后,数据在 210 秒内不可见......您可以尝试在 HPA 未运行时发出 API 请求。


推荐阅读