amazon-eks - AWS EKS 节点组迁移停止向 Kibana 发送日志
问题描述
我在使用 fluent bit 的 EKS 时遇到问题,我将感谢社区的帮助,首先我将描述集群。
我们在具有非托管节点组的 VPC 中运行 EKS 集群。EKS 集群网络配置被标记为“公共和私有”,并使用 fluent-bit 和 Elasticsearch 服务,我们在 Kibana 中显示日志。
我们已决定要移动到该集群中的托管节点组,因此成功地从非托管节点组迁移到托管节点组。
由于我们的迁移,我们在 Kibana 中看不到任何日志,当从 fluent bit pod 手动获取日志时,没有错误。
我切换了流利位的调试级别日志以更好地查看它。
我可以看到 fluent-bit 收集了所有日志文件,然后我看到我们收到了消息:
[debug] [out_es] HTTP Status=403 URI=/_bulk
[debug] [retry] re-using retry for task_id=63 attemps=3
[debug] [sched] retry=0x7ff56260a8e8 63 in 321 seconds
此外,我们在其他 EKS 集群中有托管节点组,但我们没有迁移到它们,它们是使用托管节点组创建的。
创建的托管节点组是从我们从工作托管节点组中获得的相同模板创建的,唯一的区别是计算能力。除了自动缩放之外,该模板没有什么特别之处。
我比较了工作节点组日志的节点组 IAM 角色和我的非工作节点组,角色似乎相同。
就我的流利位配置而言,我在几个 EKS 集群中具有相同的配置并且它可以工作,所以我不认为这是根本原因,但如果有人认为其他内容,我可以根据要求添加它。
有人遇到过这种问题吗?为什么节点组迁移会导致这样的问题?
提前致谢!
解决方案
吸取的教训,始终查看您遇到问题的资源的访问策略,也许它与您的节点组角色不匹配
推荐阅读
- raku - 使用 nextsame 或 callame 时奇怪的“不能使用未知特征”
- python - python websocket参数(Sec-WebSocket-Accept)
- php - 如何从expectException获取结果并在PHPUnit中通过测试?
- css - ipad/iphone 上的 Flexbox 问题
- android - Android BLE - 如何检测心率传感器
- c# - SQL 统计关系数据
- c# - 尝试使用 msbuild 构建和打包 net5 全局工具时出错
- c++ - 这可以被认为是 C++ 中单例类的有效实现吗?
- python - TFLite 转换错误:元素形状需要为 1D
- swift - 从网络显示现实文件时出错