首页 > 解决方案 > 如何修复“分区上的 Kafka 偏移提交失败:请求超时”

问题描述

我突然在生产 Kafka 中遇到类型异常

ERROR[pool-XX-thread-YY] org.apache.kafka.clients.consumer.internals.ConsumerCoordinator - [Consumer clientId=someclientid, groupId=somegroup] Offset commit failed on partition SomeTopic-SomePartition at offset SomeOffset: The request timed out.

这从许多不同的服务(客户端)(不同的线程\不同的主题\不同的分区)发生了 3.5 秒,而不仅仅是自我修复......对于所有这些客户端,偏移提交配置是 5 秒自动提交。

无法从 kafka 代理日志中跟踪任何内容,除了一组的重新平衡权(10 个有该问题),这在心跳失败时是正常的,在指标服务器中,我可以看到一些提交延迟的峰值,即我猜的症状和 1 个代理上的一些 TCP 峰值(共 3 个)

我怎样才能开始调查它?什么会导致这样的问题?当这样的事情发生时,我应该去哪里看?

在此处附上一些图表的照片:

server-3 中的 TCP 峰值 server-3 中的 TCP 峰值

提交延迟峰值 提交延迟峰值

群组同步 群组同步

心跳 心跳

标签: apache-kafka

解决方案


推荐阅读