首页 > 解决方案 > Redis 连接丢失,没有任何迹象

问题描述

我正在使用一个非常简单的 redis pub-sub 应用程序,其中我在 AWS 中有一个 redis 服务器和一个基于 nodejs 的 redis 客户端,它位于办公室 LAN 内,订阅了某个频道。

这一直很好,直到网络发生变化并且似乎某些设备现在正在干扰传出连接(我也开始接收出站 SSH 连接上的套接字挂断,我通过ServerAliveInterval 60SSH 配置中的设置缓解了这种情况)。

网络更改后,每当执行 redis 客户端应用程序时,它都会创建一个 redis 客户端,订阅某个频道并根据该频道中发布的消息进行操作。它可以正常工作几分钟,但随后停止接收任何消息。

我将 redis 客户端注册到所有已知的连接事件(包括“错误”事件),我添加了一个“retry_strategy”处理程序,并将配置修改为将“socket_keepalive”和“socket_initialdelay”设置为 10 秒(参见下面的代码)。

然而,当连接受到干扰时,不会触发任何事件。

当应用程序停止接收消息时,我看到 redis 端口上的连接仍然有效:

dev@server:~> sudo netstat -tlnpua | grep 6379
tcp        0      0 10.43.22.150:52052      <server_ip>:6379     ESTABLISHED 27014/node

我还在端口 6379 上捕获了一个 PCAP,在该端口上我没有看到任何重置或 TCP 错误,从连接的角度来看,一切似乎都是有效的。

我尝试从 LAN 中运行另一个 nodejs 应用程序,在该应用程序中我创建了一个连接到 AWS redis 服务器的客户端,注册所有事件并且只偶尔发布一次消息。几分钟后(连接中断),我尝试发布另一个命令,并且确实触发了错误事件处理程序

> client.publish("channel", "ANOTHER TRY")
true
> Error: Redis connection to <server_hostname>:6379 failed - read ECONNRESET
Redis connection ended
Redis reconnecting
Redis connected
Redis connection is ready

因此,如果我在连接受到干扰后尝试通过客户端发布,则确实会调用连接事件回调,并且我可以运行某种重新连接逻辑。

但是在我订阅并等待发布到频道的场景中,没有调用连接事件处理程序并且应用程序基本上被破坏了。

申请代码:

const redis = require('redis');

const config = { "host": <hostname>, "port": 6379, "socket_keepalive": true, 
"socket_initdelay": 10};

config.retry_strategy =  function (options) {
    console.log("retry strategy. error code: " + (options.error ? 
options.error.code : "N/A"));
    console.log("options.attempt", options.attempt, "options.total_retry_time", 
options.total_retry_time);
    return 2000;
}

const client = redis.createClient(config);

client.on('message', function(channel, message) {
    console.log("Channel", channel, ", message", message);
});

client.on("error", function (err) {
    console.log("Error " + err);
});

client.on("end", function () {
    console.log("Redis connection ended");
});

client.on("connect", function () {
    console.log("Redis connected");
});

client.on("reconnecting", function () {
    console.log("Redis reconnecting");
});

client.on("ready", function () {
    console.log("Redis connection is ready");
});

const channel = "channel";
console.log("Subscribing to channel", channel);
client.subscribe(channel);

我正在使用 redis@2.8.0 和节点 v8.11.3。

标签: node.jsredis

解决方案


这个问题的解决方案是相当可悲的。

首先,redis 客户端和服务器之间确实有一些网络设备,在超时后会丢弃不活动的连接。看来这个超时时间真的很低(几分钟)。

Redis 有一个socket_keepalive默认启用的配置,它的默认值是 Node.js 的默认套接字保持活动值(如果我没记错的话设置为 2 小时)。

从上面可以看出,我使用了一个socket_initdelay配置参数,应该改变了这个默认值,但不幸的是,使用这个参数的代码不在redisnpm 包中,而是在node-redis.

总结一下:redis@2.8.0(写这篇文章时的最新版本)没有配置设置来改变keep alive超时值。您可以:

  1. 使用node-redis接受socket_initdelay设置。

  2. 通过运行以下命令手动修改超时:

const client = redis.createClient();
client.on("connect", function () {
    client.stream.setKeepAlive(true, <timeout_value_in_milliseconds>);
}

推荐阅读