排查Redis集群连接故障，分享排查技巧，确保服务稳定运行

排查Redis集群连接故障的核心技巧是先检查网络连通性、端口监听状态和集群节点健康，再验证配置一致性和日志异常，确保服务稳定运行。

基础网络连通性检查

首先，使用 telnet 或 nc 工具测试从客户端到 Redis 节点的连接是否正常。比如，telnet 127.0.0.1 6379，如果连接不上，可能是防火墙或网络问题。

然后，检查 Redis 端口是否在监听：netstat -tlnp | grep 6379，确保进程绑定正确。如果没有输出，Redis 服务可能没启动。

再用 ping 测试节点间连通，集群模式下节点必须互相能 ping 通，否则集群无法形成。

连接到任意节点执行 redis-cli -c -h host -p 6379 cluster nodes，查看所有节点状态，确保没有 FAIL 或 PFAIL 标记。

如果有节点下线，用 cluster info 检查 cluster_state 是否为 ok，不是 ok 就说明集群不健康，需要修复。

执行 redis-cli --cluster check host:port 全面检查集群一致性，输出会指出 slots 分配问题或节点通信故障。

查看 Redis 日日志：tail -f /var/log/redis/redis.log，搜索 connection refused 或 timeout 等关键词，定位具体错误。

对比 redis.conf 配置，特别是 cluster-enabled yes、cluster-config-file 和 cluster-node-timeout 参数是否一致。

客户端连接字符串检查：确保 redis://host:port?cluster=yes 格式正确，超时时间设置合理如 connectionTimeout=2000。

如果网络问题，重启防火墙规则或检查 SELinux/AppArmor 限制。用 systemctl restart redis 重启服务。

集群不一致时，用 redis-cli --cluster fix --cluster-slave-validity-factor 0 可以尝试自动修复。

持久化检查：确保 AOF 或 RDB 不阻塞主线程，appendfsync everysec 设置合适。

Q: Redis集群连接突然中断怎么快速恢复？
A: 先 cluster nodes 查看故障节点，执行 failover 手动切换主从，然后 fix 集群。

Q: 客户端连接池报 Connection refused 是什么原因？
A: 通常是 maxmemory 已满导致拒绝新连接，调大内存或设置 evict 策略如 allkeys-lru。

Q: 集群 slots 不完整怎么处理？
A: 用 redis-cli --cluster reshard 重新分配 slots，确保所有节点在线。

Q: 如何监控 Redis 集群连接稳定性？
A: 用 Prometheus + redis_exporter 监控 connected_clients 和 cluster_links_up 指标，设置告警阈值。