Redis集群常见错误怎么修复？分布式缓存故障怎么排查？

Redis集群常见错误修复：1. CLUSTERDOWN Hash slot not served - 检查节点是否正确加入集群，使用cluster meet命令添加节点。2. MOVED/MISTARGETED错误 - 客户端需要支持集群模式或刷新槽映射。3. 节点选举失败 - 确保奇数主节点数量，避免脑裂，使用cluster-node-timeout调整超时。故障排查：用redis-cli --cluster check检查集群状态，监控slowlog和info replication查看复制延迟，检查网络分区和内存使用。

CSDN博客

在Redis集群模式下，如果遇到CLUSTERDOWN错误，通常是因为某个节点下线或网络问题导致的。修复方法：使用redis-cli -c -p 端口 cluster nodes查看集群状态，然后redis-cli --cluster rebalance --cluster-yes重新平衡槽位。如果是主从切换失败，检查slave节点是否能ping通master，并手动failover。

阿里云文档

分布式缓存故障排查步骤：1. 检查Redis实例监控，观察CPU、内存、QPS是否异常。2. 使用redis-cli info commandstats查看热门命令。3. 慢查询排查：config set slowlog-log-slower-than 10000，slowlog get获取日志。4. 集群故障：cluster info查看cluster_state是否ok，cluster nodes检查节点角色和槽分配。

腾讯云开发者社区

常见错误：Too many cluster redirections - 客户端连接过多，重启客户端或增加连接池大小。节点无法加入集群：确保所有节点时间同步，防火墙开放6379和16379端口。故障定位：用redis-cli --cluster info检查，日志中grep 'cluster'查找错误。

知乎文章

Redis集群脑裂问题：当网络分区时，多数派无法形成，使用--cluster-require-full-coverage no参数允许部分可用。修复：等待网络恢复后，cluster forget删除失效节点，再add-node加入。排查工具：Prometheus+Grafana监控集群指标。

博客园

缓存雪崩排查：key过期时间集中，使用随机过期时间避免。热点key问题：监控keys * pattern找出热点，用本地缓存分担。集群扩容故障：逐步添加节点，避免一次性太多导致选举风暴。

华为云文档

连接超时：调整tcp-keepalive和timeout参数。内存不足：info memory查看used_memory_rss，启用内存优化如lazyfree-lazy-evict。集群校验：redis-cli --cluster check 127.0.0.1:6379。

FAQ
Q: Redis集群节点突然下线怎么处理？
A: 先cluster nodes查看状态，手动promote slave为master，然后cluster forget删除下线节点。
Q: 为什么出现ASK重定向？
A: 槽正在迁移中，客户端自动重试或等待迁移完成。
Q: 分布式缓存穿透怎么防？
A: 布隆过滤器+空值缓存，限制请求频率。
Q: 集群如何备份数据？
A: RDB快照或AOF日志，结合主从复制。