Ansible 大规模集群部署如何优化 SSH 连接池配置？

针对大规模集群，优化核心在于减少 SSH 握手开销并合理控制并发进程数。主要通过调整 ansible.cfg 中的 forks、pipelining 和 SSH ControlPersist 参数来实现，但必须匹配控制节点的资源承载能力。

先说结论：调整并发数与连接复用是提升效率的关键，但需严格匹配控制节点资源。

先定位：确认控制节点 CPU、内存及文件句柄限制（ulimit）
先做：开启 pipelining 并配置 SSH ControlPath 复用，创建必要目录
再验证：观察任务执行时间及控制节点负载变化，避免 OOM

命令速用版

在 ansible.cfg 的 [defaults] 和 [ssh_connection] 段落中加入以下配置，可立即生效：

[defaults]
forks = 10
host_key_checking = False
pipelining = True

[ssh_connection]
ssh_args = -o ControlMaster=auto -o ControlPersist=60s
control_path = ~/.ansible/cp/%%h-%%p-%%r

核心原理

Ansible 默认通过 SSH 连接管理节点，每次任务执行都可能涉及新的握手过程。在大规模场景下，频繁的握手会消耗大量时间。同时，Ansible 默认并发数（forks）较低，无法充分利用控制节点的性能。开启连接复用（ControlPersist）可以避免重复握手，提高 forks 数可以增加并行度，但过高的并发会导致控制节点资源耗尽。

分步处理

1. 检查与调整系统限制
在执行优化前，先确认控制节点的文件句柄数限制，避免进程数过多导致报错：

ulimit -n

如果数值较小（如 1024），建议在 /etc/security/limits.conf 中调大。执行以下命令追加配置：

echo '* soft nofile 65535' >> /etc/security/limits.conf

注意：配置生效后需重新登录用户会话。

2. 调整 Ansible 并发数 (forks)
编辑 ansible.cfg，根据控制节点资源调整 forks。不要盲目设置为 CPU 核心数的倍数，需结合内存估算。

经验公式：forks ≈ (可用内存 MB - 500) / 10
例如：控制节点剩余可用内存为 2000MB，则 forks 建议设置为 (2000-500)/10 = 150 左右。初始建议从 10-20 开始逐步调优，同时观察内存占用。

3. 配置 SSH 复用目录
确保 ControlPath 目录存在，否则连接复用可能失效。执行以下命令创建目录并设置权限：

mkdir -p ~/.ansible/cp
chmod 700 ~/.ansible/cp

同时检查远程节点的 sudoers 配置，若开启 pipelining，需确保没有设置 requiretty，否则会导致管道传输失败。

怎么验证是否生效

使用 time 命令配合 ping 模块测试全量主机连通性，对比优化前后的耗时：

time ansible all -m ping

同时使用 top 或 htop 观察控制节点的 CPU 和内存负载，确认没有因并发过高导致系统卡顿。可使用以下命令查看当前 Ansible 进程数：

ps aux | grep ansible | wc -l

常见坑与风险

ControlPath 路径过长：SSH 对 socket 路径长度有限制（通常 108 字符），建议使用短路径或哈希值，确保 ~/.ansible/cp 目录存在。
requiretty 限制：部分系统默认开启 requiretty，会导致 pipelining 失效，需在 sudoers 中注释掉该选项（Defaults !requiretty）。
控制节点 OOM 风险：盲目调大 forks 可能导致控制节点内存溢出，任务反而变慢或失败。请务必根据内存公式估算，并监控内存使用率。
中间人攻击风险：大规模部署通常关闭 host_key_checking 以跳过密钥确认，但这存在中间人攻击风险。仅建议在可信内网环境放宽，生产环境建议配合已知主机文件管理。