如何调整 Kafka Broker 的 num.network.threads 参数优化并发？

调整 num.network.threads 前应先通过 JMX 指标确认网络线程是否成为瓶颈，盲目增加线程数可能导致上下文切换加剧，通常仅在 NetworkProcessorAvgIdlePercent 持续偏低时考虑调大。

先说结论：该参数控制处理网络读写请求的线程数，默认值通常能满足大多数场景，优化前必须依赖监控指标而非经验猜测。

先定位：检查 Broker 的 NetworkProcessorAvgIdlePercent 指标是否长期处于低位。
先做：根据 CPU 核心数适度调整，避免设置过大导致上下文切换开销。
再验证：调整后观察请求延迟和 CPU 使用率变化，确认无负向影响。

配置修改与生效步骤

修改配置文件 server.properties，需要重启 Broker 生效。以下是配置示例和注意事项：

# server.properties
num.network.threads=8

注意：该参数不支持动态修改，修改配置文件后必须重启进程。生产环境请务必采用滚动重启，并在重启前确认副本同步状态。

如何调整 Kafka Broker 的 num.network.threads 参数优化并发？

JMX 指标快速查询实战

在调整前，需通过 JMX 查看 Kafka Broker 的 NetworkProcessorAvgIdlePercent 指标。以下是使用 jmxterm 的查询示例：

# 连接本地 Kafka JMX 端口（默认 9999，需启动时配置）
java -jar jmxterm.jar -l localhost:9999
# 进入后执行查询
domain kafka.network
bean type=SocketServer,name=NetworkProcessorAvgIdlePercent
get Value

若使用 Prometheus 监控，可直接查询 kafka_network_socket_server_network_processor_avg_idle_percent 指标。

系统级验证与进程检查

1. 获取 Kafka 进程 PID：

ps -ef | grep kafka | grep -v grep

2. 观察上下文切换：使用 pidstat 观察特定进程的上下文切换次数（cs）：

# <pid> 替换为实际 Kafka 进程 ID
pidstat -p <pid> -w 1

如果调整后 cs 显著增加且性能未提升，说明线程数可能过大了。

原理与默认值说明

Kafka Broker 将处理请求的过程分为网络层和 IO 层。num.network.threads 专门负责读取网络请求、解码以及将响应写回网络，而 num.io.threads 负责磁盘读写逻辑。如果网络线程不足，请求会在网络队列中堆积，导致客户端感知到的延迟增加；但如果线程数过多，CPU 会花费更多时间在线程切换上，反而降低整体吞吐量。

关于默认值：默认值取决于版本和 CPU 核心数，建议先查询当前生效配置，不要盲目假设默认值为 3。

常见坑与风险控制

混淆 IO 线程：不要将 num.network.threads 与 num.io.threads 混淆。前者处理网络包，后者处理磁盘 IO，瓶颈点不同，调整方向也不同。
滚动重启风险：重启 Broker 前务必检查 ISR（In-Sync Replicas）状态。若副本未同步完成就重启，可能引发 Leader 选举风暴或短暂不可用。
盲目调大：有些运维人员习惯直接将线程数设为 CPU 核心数的两倍，这在 Kafka 场景下未必适用，可能导致严重的上下文切换。
忽略网络带宽：如果瓶颈在于网卡带宽而非线程处理能力，增加线程数没有任何帮助，反而浪费 CPU 资源。

参考来源

Apache Kafka Documentation, Broker Configuration, https://kafka.apache.org/documentation/#brokerconfigs
Confluent Platform Documentation, Kafka Broker Configuration Reference, https://docs.confluent.io/platform/current/installation/configuration/broker-configs.html