查询Redis节点状态，掌握集群健康，选择适合的监控方案

要快速查询Redis节点状态和集群健康，最简单直接的方法是使用Redis自带的CLI命令，例如通过redis-cli执行INFO命令查看节点详情，以及用CLUSTER INFO和CLUSTER NODES获取集群健康与拓扑，并结合定期监控工具（如RedisInsight或Prometheus+Grafana）进行可视化告警，从而确保集群稳定运行。

第一步：用Redis自带命令查看节点状态

如果你已经安装了Redis，打开终端，连接到你的Redis实例。对于单个节点，可以直接用redis-cli工具。输入INFO命令，它会返回一大堆信息，包括内存使用、连接数、持久化状态等。重点关注几个地方：used_memory（已用内存），如果接近maxmemory配置，可能就要扩容了；connected_clients（当前连接数），突增可能意味着访问量过大或连接泄漏；aof_enabled和rdb_last_save_status，看看持久化是否正常。

对于集群环境，先连上任意节点，然后执行CLUSTER INFO。这个命令会给出集群整体情况，比如cluster_state应该是ok，表示集群正常；cluster_slots_assigned应该是16384（全部槽位都分配了），如果少了，就有数据丢失风险。接着用CLUSTER NODES，它会列出所有节点的ID、地址、角色（master/slave）、连接状态和槽位分配。检查每个节点是否都是connected，如果有disconnected或fail，那部分节点可能挂了，需要及时处理。

第二步：掌握集群健康的日常检查

光是查一次不够，集群健康需要定期检查。你可以写个简单的脚本，定时跑上面的命令，解析输出。比如，用shell脚本每隔几分钟检查一次CLUSTER INFO中的cluster_state，如果不是ok就发邮件或短信告警。脚本里也可以监控节点数，确保没有节点意外退出。

另一个重要方面是数据一致性。在Redis集群里，有时候主从同步会有延迟。你可以用redis-cli --cluster check命令来检查集群的槽位覆盖和主从关系，它会报告是否有槽位未分配或节点异常。如果发现从节点落后主节点太多（通过INFO replication查看master_repl_offset差值），可能网络或负载有问题，需要排查。

第三步：选择适合的监控方案

手动查命令适合临时排查，但长期运维最好用监控工具。这里推荐几个方案，根据你的需求选：

方案一：RedisInsight（官方GUI工具）。这是Redis Labs出的免费图形界面，支持单机和集群。你把它装好后，连接到Redis，它就能实时展示内存、命令、慢查询等图表，还内置了告警功能。适合不想折腾命令行的团队，直观易懂。

方案二：Prometheus + Grafana组合。这是很多公司用的标准监控方案。首先，部署Redis Exporter（一个采集指标的程序），让它从Redis节点收集数据并暴露给Prometheus。然后，Prometheus定期拉取数据存储，Grafana用来画图表和设告警。你可以在Grafana里导入现成的Redis监控面板，马上看到集群的各项指标，比如每秒操作数、内存趋势、节点状态等。这个方案灵活，能集成到现有监控体系，但需要一些部署和维护成本。

方案三：云服务商托管监控。如果你用的是阿里云、AWS等云的Redis服务，它们通常自带监控控制台，提供健康检查、性能指标和告警。省心，但可能功能受限或收费。

选哪个？如果你们团队小，想快速上手，用RedisInsight；如果已有Prometheus环境，或者需要深度定制监控，就选方案二；用云服务的话，直接看云控制台就行。

FAQ

问：Redis集群中某个节点连接失败，怎么紧急处理？
答：先用CLUSTER NODES确认节点状态，如果是临时网络问题，尝试重启该节点的Redis服务；如果节点永久失效，可能需要用CLUSTER FORGET移除它，并重新添加新节点，注意这期间可能影响数据可用性，建议在低峰期操作。

问：监控显示内存使用率持续上涨，但数据量没明显增加，可能是什么原因？
答：可能是内存碎片或客户端连接泄漏。检查INFO memory中的mem_fragmentation_ratio，如果大于1.5，可以考虑重启Redis或使用MEMORY PURGE（如果支持）来清理碎片；同时查看connected_clients是否异常增多，排查客户端代码。

问：自建监控太麻烦，有没有更轻量的选择？
答：可以试试redis-stat或redis-live这类开源小工具，它们提供简单的Web界面展示关键指标，部署比Prometheus容易，但功能相对基础。

引用来源：基于Redis官方文档（redis.io/commands）、RedisInsight指南和常见运维实践总结。