企业内网 DNS 递归查询慢如何部署智能解析优化？

企业内网 DNS 递归查询慢，通常是因为上游链路延迟高或本地缺乏缓存，最稳妥的方案是部署本地缓存 DNS 并配置多上游选择，适用于中大型办公网络或跨地域分支场景。

先说结论：不要盲目更换 DNS 服务器，先确认是网络链路问题还是解析服务性能问题，优先在网关或核心交换机旁部署本地缓存代理，再根据业务需求配置智能转发。

先定位：使用 dig 命令区分是网络延迟高还是服务器处理慢
先做：部署支持缓存和多上游选择的本地 DNS 服务（如 dnsmasq 或 Unbound）
再验证：对比优化前后的查询耗时（Query Time）和成功率，并通过信号dump缓存统计

核心原理与术语澄清

DNS 递归查询慢通常不是单一原因，主要涉及三个环节。首先是本地缓存缺失，如果内网没有缓存层，每次查询都要穿透到公网或上级 DNS，累积延迟明显。其次是上游服务器质量，配置的上级 DNS 如果距离远、负载高或链路不稳定，响应自然慢。最后是网络路径问题，内网到 DNS 服务器之间的路由如果经过拥堵节点，也会增加 RTT（往返时间）。

所谓的“智能解析优化”，在企业内网场景下，核心不是做地理定位解析（GeoDNS），而是智能选择上游和本地缓存加速。通过本地代理 DNS 记录查询结果，下次直接返回，同时维护多个上游服务器列表。注意，dnsmasq 默认会向所有配置的上游发送查询，并返回最先收到的响应，从而实现隐式的速度选择，而非基于健康检查的切换。

部署实操步骤

按照以下顺序操作，每一步完成后都要确认业务正常再继续：

1. 基线测试
在问题最明显的客户端，使用 dig 命令记录当前的平均查询耗时。连续测试 5 次，记录 Query Time 字段的数值，作为优化前的基准。注意不要只测一次，DNS 有随机性。

# 测试指定 DNS 服务器的解析耗时
dig @当前 DNS 服务器 IP example.com

2. 安装本地缓存服务
在内网网关或专用服务器上安装轻量级 DNS 服务。推荐使用 dnsmasq，配置简单且资源占用低。根据系统类型选择安装命令：

# CentOS/RHEL
yum install dnsmasq -y

# Ubuntu/Debian
apt-get install dnsmasq -y

3. 配置缓存与上游
编辑配置文件 /etc/dnsmasq.conf。开启缓存功能，并配置国内公共 DNS 作为上游（避免使用可能被拦截的境外 DNS）。

# 设置缓存大小
cache-size=1000
# 不缓存负结果（可选，视需求而定）
no-negcache
# 配置上游 DNS（优先国内公共 DNS 或内部上游）
server=223.5.5.5
server=114.114.114.114
# 开启查询日志以便排查（生产环境注意日志轮转）
log-queries
# 指定监听接口
listen-address=127.0.0.1
listen-address=192.168.1.1

4. 启动与验证服务
配置完成后，启动服务并设置开机自启。检查状态确保无报错。

# 启动服务
systemctl start dnsmasq
# 设置开机自启
systemctl enable dnsmasq
# 检查运行状态
systemctl status dnsmasq

5. 切换客户端 DNS
将内网客户端的 DNS 服务器地址指向新部署的本地缓存服务 IP。如果是 DHCP 环境，直接在 DHCP 服务器修改 Option 6 配置，避免逐台修改。

6. 配置智能转发（可选）
如果内网有特定域名需要走内部 DNS 解析（如办公系统），需要在缓存服务上配置转发规则，确保内网域名不泄露到公网。例如在 dnsmasq 中添加：

server=/internal.corp/10.0.0.53

验证与监控

优化是否成功，主要看两个指标：

1. 查询耗时降低
再次使用 dig 命令测试相同域名。首次查询可能因为缓存未命中耗时较长，但第二次及以后的查询，Query Time 应该显著降低（通常降至 1ms 以内，取决于本地服务器性能）。

2. 缓存统计查看
dnsmasq 默认日志不直接显示 hit/miss 统计，可以通过发送信号dump缓存信息到系统日志查看。

# 发送 USR1 信号触发统计日志
kill -USR1 $(pidof dnsmasq)
# 查看系统日志中的统计信息（路径视系统而定）
grep dnsmasq /var/log/syslog
# 或
grep dnsmasq /var/log/messages

日志中会显示 queries forwarded 和 queries answered locally 等数据，以此评估缓存效果。

生产环境高可用建议

本地缓存服务本身成了新的单点。建议至少部署两台做高可用，或者在客户端 DHCP 配置中填写两个 DNS 地址（主为缓存服务 1，备为缓存服务 2）。

架构建议：

部署两台 dnsmasq 服务器，配置保持一致。
DHCP Option 6 中填入这两台服务器的 IP。
确保两台服务器都能独立访问上游 DNS，避免依赖关系。

常见坑与排查

1. TTL 设置过短
如果本地缓存服务的缓存时间设置得比域名原始 TTL 还短，会导致频繁回源查询，失去缓存意义。一般建议缓存时间不少于域名的最小 TTL。

2. 形成解析环路
在配置转发规则时，避免 A 服务器转发给 B，B 又转发回 A。这会导致查询超时甚至服务崩溃。配置多跳转发时务必画出流向图确认。

3. 忽视负缓存
查询不存在的域名也会产生消耗。开启负缓存（negative caching）可以避免重复查询不存在的域名，减少上游压力，但要注意负缓存时间不宜过长，以免新开通的域名无法及时解析。

4. 日志膨胀风险
开启 log-queries 后日志量会非常大，生产环境务必配置 logrotate 进行日志轮转，避免磁盘写满。