重启Redis集群全攻略，关键步骤与风险规避，新手老手都需掌握

重启Redis集群的关键步骤：1. 检查集群状态，使用redis-cli --cluster check确认所有节点正常；2. 停止从节点，先redis-cli -h master-ip shutdown；3. 等待从节点完全停止后，停止主节点；4. 按顺序启动从节点，然后主节点；5. 使用cluster meet重新加入集群；风险规避：备份数据，监控网络延迟，避免高峰期操作，分批重启最小化影响。

步骤详解

首先，确保所有节点数据一致。执行cluster info查看集群健康。逐步关闭从节点：redis-cli --cluster stop slave-node，避免主从切换。启动时，从slave开始，确保slave连接到master。风险：如果网络抖动，可能导致slot迁移失败，提前测试failover。

风险规避技巧

备份AOF或RDB文件。使用sentinel监控自动切换，但重启时禁用。分区域重启：先一个zone的节点。监控QPS和延迟，准备回滚计划。如果集群有proxy如twemproxy，先重启proxy。

实际操作案例

在生产环境，重启前通知用户。停止节点顺序：slave1, slave2, master。启动：slave1, slave2, master。验证：cluster nodes和cluster slots。遇到问题：slot不均衡，用cluster rebalance修复。

常见错误避免

不要同时重启所有节点，会导致脑裂。确保端口防火墙开放。重启后检查key数量一致。使用docker时，注意volume持久化。

高级风险控制

启用cluster-require-full-coverage no，允许部分节点故障继续服务。监控内存使用，重启前gc。测试环境先演练。

FAQ
Q: 重启会导致数据丢失吗？
A: 只要启用持久化AOF/RDB，不会丢失，但需验证备份。
Q: 如何处理主从切换失败？
A: 手动failover，使用cluster failover命令。
Q: 重启需要停机多久？
A: 分批操作下几分钟，高峰期建议维护窗口。
Q: Redis 6.x有何不同？
A: 支持RESP3，但重启步骤类似，注意模块加载。