首页 > 解决方案 > 如何使用 Kubernetes 调试 OOMKilled 问题 / 为什么 traefik pod 关闭

问题描述

我正在测试一个使用包装外部肥皂服务的服务的本地应用程序。

当我请求从 1 周内获取数据时,一切正常。

但是当我请求从 1 个月内获取数据时,我的 Web 服务器/反向代理会下降( traefik )

当我检查豆荚时,我得到:

上交所:

Last State:     Terminated
  Reason:       OOMKilled
  Exit Code:    137
  Started:      Wed, 26 Feb 2020 09:54:29 +0100
  Finished:     Wed, 26 Feb 2020 15:48:13 +0100

特雷菲克:

    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Thu, 13 Feb 2020 15:53:10 +0100
      Finished:     Wed, 26 Feb 2020 15:48:13 +0100

我已经用 Grafana 检查了每个容器的内存/CPU 使用率。我找不到任何异常活动的迹象。

这是内存使用的屏幕截图:

特拉菲克

SOAP 包装 API

在配置中,traefik 对资源没有限制。SGE 服务有以下限制:

      resources:
            # keep request = limit to keep this container in guaranteed class
            limits:
              cpu: 500m
              memory: 400Mi
            requests:
              cpu: 200m
              memory: 200Mi

我的虚拟机空闲时有 800 MB 的可用内存,所以这应该不是问题。

Traefik 为什么会倒下?我不明白发生了什么,我应该如何防止它。

任何想法 ???

标签: kubernetesresiliency

解决方案


推荐阅读