突破Redis集群瓶颈，掌握高并发与数据一致性实战技巧，告别性能焦虑

要突破Redis集群瓶颈，首先采用读写分离，主节点处理写操作，从节点负责读请求。其次，使用Proxy如Twemproxy或Codis分担负载，避免单点压力。数据一致性通过异步复制结合Sentinel实现，最终可用性强，主从切换自动完成。高并发下，优化客户端连接池，设置合理的pipeline批量操作，告别性能焦虑。

Redis集群模式实战

Redis Cluster是官方提供的集群方案，支持数据自动分片（sharding），通过16384个hash槽（hash slots）来分配数据，每个节点负责一部分槽位。当节点故障时，集群会自动将槽位迁移到其他健康节点，实现高可用。配置集群时，使用redis-cli --cluster create命令初始化，指定节点IP和端口，--cluster-replicas 1表示每个主节点有一个从节点。客户端连接时，需要支持Cluster模式，如JedisCluster或Lettuce。

高并发优化技巧

面对高并发场景，Redis单机QPS可达10万+，但集群需注意热点key问题。解决方案：使用key的分片设计，如user:10001:info改为user:{10001}:info，确保均匀分布到不同槽。启用pipeline减少RTT，批量执行命令，一次网络往返处理多条命令。监控工具如Prometheus+Grafana，实时观察CPU、内存、QPS指标，及时扩容节点。

数据一致性保障

Redis集群强一致性弱于CP系统，但可用最终一致性。主从异步复制，wait命令可阻塞等待从节点复制指定数量N，增强写后读一致性。例如SET key value后，立即WAIT 1 0，确保至少一个从节点同步。Pub/Sub用于通知机制，结合Lua脚本原子执行多命令，避免竞态。故障时，集群自动故障转移，优先选举从节点为主。

性能瓶颈排查与解决

常见瓶颈：大key（大Value或多元素集合），用scan渐进式遍历清理。慢查询开启slowlog log 1000 100，分析高延迟命令如keys*、smembers。网络瓶颈下，升级到10G网卡，调整tcp-keepalive。内存优化：使用内存数据库时，设置maxmemory-policy allkeys-lru，主动淘汰不活跃key。集群扩容：redis-cli --cluster add-node新节点，自动平衡槽位。

实战案例：电商秒杀系统

在电商秒杀场景，库存用递减Lua脚本：local stock = redis.call('get', KEYS[1]) if tonumber(stock) > 0 then redis.call('decr', KEYS[1]) return 1 else return 0 end。集群部署3主3从，热点key用本地缓存+Redis二级。限流用令牌桶算法，redis.call('llen', 'bucket') < 1000则LPUSH并返回true。QPS从5万提升到30万，库存扣减零超卖。

监控与运维最佳实践

使用redis-exporter暴露指标到Prometheus，Grafana dashboard可视化集群状态。告警规则：QPS>80%阈值、内存>90%、连接数>80%。备份用RDB+AOF双保险，定期快照到S3。安全加持：requirepass密码，ACL控制命令权限。升级时滚动重启，busymaster设置为no，减少阻塞。

FAQ
Q: Redis集群如何处理网络分区？
A: 通过gossip协议节点间心跳检测，多数派（majority）继续服务，少数派拒绝写，恢复后自动同步。
Q: 高并发下如何避免thundering herd？
A: 预热热点key到本地缓存，渐进式失效，结合熔断器。
Q: 数据一致性如何最终确认？
A: 使用wait或自定义通知队列，应用层重试机制。
Q: 集群扩容会丢失数据吗？
A: 无，会自动迁移hash槽，数据完整迁移。