Kafka Controller 选举失败导致集群不可用怎么排查恢复？

遇到 Kafka Controller 选举失败，最稳妥的做法是先区分集群模式（ZooKeeper 或 KRaft），再查看对应节点的日志定位报错原因。如果是 ZooKeeper 模式且节点僵死，可尝试重启该 Broker 或在极端情况下清理 ZooKeeper 中的 Controller 注册节点；如果是 KRaft 模式，需检查 Raft 法定人数是否满足。

先说结论：Controller 选举失败通常源于网络分区、ZooKeeper 会话超时或 KRaft 法定人数不足，优先恢复控制节点 connectivity。

先确认：当前集群模式（ZooKeeper 或 KRaft）及 Controller 所在 Broker ID
先处理：检查网络连通性、ZooKeeper 状态或 KRaft Quorum，重启异常 Broker
再验证：观察日志选举成功信息，并通过生产消费测试确认元数据可写

命令速用版

注意：以下命令路径基于 Kafka 标准安装包，不同版本可能略有差异（如 ZooKeeper 工具在 3.0+ 版本中集成度不同，KRaft 命令需 3.3+）。

# 查看 Broker 日志中关于 Controller 的报错
grep -i "controller" logs/server.log

# ZooKeeper 模式下查看当前 Controller 注册信息
# 注意：部分新版本可能使用 zkCli.sh 或路径变更，确保 ZK 服务可达
echo "get /controller" | ./bin/zookeeper-shell.sh localhost:2181

# KRaft 模式下查看元数据控制器状态（Kafka 3.3+，路径需根据实际配置调整）
./bin/kafka-metadata.sh `--snapshot` /var/kafka/data/__cluster_metadata-0/00000000000000000000.log `--command` "controller"

# 查看 Broker 端配置的 Controller 超时参数
grep "controller.socket.timeout.ms" config/server.properties

为什么会这样

Kafka 集群依赖 Controller 来管理分区副本的状态变更和 Leader 选举。在 ZooKeeper 模式下，Controller 通过在 ZK 上创建临时节点来竞争身份；在 KRaft 模式下，依赖 Raft 协议的法定人数投票。如果网络抖动导致心跳丢失，或者 Controller 进程 Full GC 停顿，ZooKeeper 会话过期，就会触发重新选举。若此时候选节点都无法成功注册，集群元数据将冻结，导致生产消费不可用。

分步处理

1. 定位当前 Controller 状态
登录任意 Broker 节点，查看日志中是否有 "Controller epoch" 更新或 "Become Controller" 字样。若日志持续打印 "Controller channel closed" 或 "Session expired"，说明控制链路断开。

2. 检查依赖服务连通性
如果是 ZooKeeper 模式，确认 Broker 能 telnet 通 ZK 端口。检查 ZK 集群自身是否健康，是否存在脑裂。如果是 KRaft 模式，检查多数派 Controller 节点（Voter）是否存活，确保 `meta.properties` 中配置的节点 ID 正确。

3. 重启候选 Broker
找到原本担任 Controller 的 Broker ID，尝试重启该进程。重启会触发新的会话创建和选举流程。注意滚动重启，避免同时下线过多节点。

4. 极端情况：清理 ZK 注册节点（仅限 ZK 模式）
若 Broker 进程已死但 ZK 上临时节点未过期，可手动删除 `/controller` 节点强制触发选举。警告：此操作有极高风险，需确保原 Controller 进程确实已停止，否则会导致双 Controller 冲突。

# 危险操作，仅在确认原 Controller 进程停止后执行
echo "delete /controller" | ./bin/zookeeper-shell.sh localhost:2181

怎么验证是否生效

观察 Broker 日志，出现 "Broker X becomes controller" (ZK 模式) 或 "BecomeController" (KRaft 模式) 类似日志表示选举成功。使用命令行工具创建 topic 或发送消息，若不再报 "LeaderNotAvailable" 或 "NotController" 错误，即恢复。

# 测试创建 Topic 是否成功（已修正参数格式）
./bin/kafka-topics.sh `--bootstrap-server` localhost:9092 `--create` `--topic` test-recovery `--partitions` 1 `--replication-factor` 1

常见坑

1. 误删 ZK 节点：在原 Controller 进程未完全停止时删除节点，可能导致双 Controller 冲突，引发元数据混乱。
2. GC 停顿：Controller 节点堆内存不足导致长时间 Stop-The-World，会被 ZK 判定为会话失效，需调整 JVM 参数而非单纯重启。
3. 网络分区：若 Broker 与 ZK 之间防火墙策略变动，重启后可能依然无法连接，需检查安全组规则。
4. 模式混淆：KRaft 模式下使用 ZK 命令排查无效，需确认 `process.roles` 配置区分模式。

参考来源

1. Apache Kafka Documentation, "Operations", https://kafka.apache.org/documentation/
2. Confluent Platform Documentation, "Kafka Controller", https://docs.confluent.io/platform/current/kafka/index.html