如何防止 Python 爬虫被目标网站通过行为分析识别？

防止 Python 爬虫被行为分析识别，核心在于模拟真实用户的请求间隔、鼠标轨迹和浏览器指纹，同时隐藏自动化脚本的特征标记。

先说结论：规避行为分析需要组合使用请求头伪装、随机延迟控制和浏览器环境隐藏，单一策略难以长期生效。

先判断：确认目标网站是检测请求频率、浏览器指纹还是 JavaScript 渲染内容。
优先做：轮换 User-Agent 和 Referer，使用随机延迟模拟人类操作节奏。
再验证：通过开发者工具检查 navigator.webdriver 属性及请求响应状态码。

快速处理思路

对于基于 requests 的简单爬虫，重点在于请求头伪造和频率控制；对于 Selenium 自动化，必须移除 webdriver 特征并禁用无头模式。

为什么会这样

网站反爬系统通过监控访问频率、间隔规律性、鼠标移动轨迹以及浏览器指纹特征来识别自动化程序。

当检测到异常行为模式时，服务器可能会返回验证码、限制访问甚至直接封禁 IP。默认的请求库标识（如 python-requests）和无头浏览器特征是主要的暴露点。

分步处理

1. 设置合理的请求头 (User-Agent 和 Referer)

很多网站通过检查请求头中的 User-Agent 字段判断请求来源。建议为每次请求添加常见的浏览器 User-Agent 并轮换，同时添加 Referer 字段模拟从搜索引擎或首页跳转的行为。

import requests
import random
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15"
]
headers = {
    'User-Agent': random.choice(user_agents),
    'Referer': 'https://www.google.com/'
}
response = requests.get('https://example.com', headers=headers)

2. 控制请求频率，避免高频访问

短时间内发送大量请求是爬虫的典型特征。使用 time.sleep() 在请求之间加入随机延迟，比如 0.5 到 3 秒，模拟真实用户翻页、点击之间的时间差。

import time
import random
time.sleep(random.uniform(0.5, 3))

3. Selenium 启动时抹除自动化痕迹

Selenium 默认启动的 Chrome 会在 window.navigator 里暴露 webdriver 属性为 true。必须在初始化阶段用 execute_cdp_cmd 主动覆盖关键属性，并禁用无头模式。

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
    Object.defineProperty(navigator,'webdriver', {get: () => undefined});
    window.chrome = {runtime: {}};
    """
})

4. 使用代理 IP 池防止 IP 被封

单一 IP 频繁访问容易被加入黑名单。通过轮换代理 IP，可以有效分散请求来源，降低被封禁的风险。

怎么验证是否生效

检查浏览器控制台中的 navigator.webdriver 属性是否为 undefined，并观察请求是否持续返回 200 状态码而非 403 或验证码页面。

可以在目标网站输入 console.log(navigator.webdriver) 测试，若返回 undefined 则隐藏成功。持续监控响应状态，及时调整策略可实现稳定抓取。

常见坑

使用 fake_useragent 库默认会发 HTTP 请求去拉取最新 UA 列表，这反而暴露了爬虫行为，更稳妥的做法是本地维护一份常见 UA 字符串列表。

禁用无头模式 (`--headless`)，现在绝大多数反自动化系统会直接拒绝无头浏览器的请求。分辨率也要设成常见值，避免出现 800x600 这种测试环境尺寸。

请求间隔不能是固定值，用 time.sleep(2) 是自曝身份，真实用户操作时间差是高度不规则的。

常见问题

requests 库和 Selenium 哪个更容易被识别？

Selenium 若未配置隐藏措施更容易被识别，因为它默认暴露 webdriver 属性，而 requests 主要通过请求头特征被识别。

为什么设置了 User-Agent 还是被封禁？

仅设置 User-Agent 不够，网站还会检查 Referer、请求频率、IP 地址以及浏览器指纹特征，需要组合策略。

如何处理网站弹出的验证码？

可以采用 Selenium 等工具模拟浏览器操作或接入打码平台，但对于复杂验证码，建议评估抓取必要性。

参考来源

Python 爬虫如何有效防止被目标网站识别出是自动化程序？
Python 爬虫防 AI 检测实战指南：从基础到高级的规避策略
Python 爬虫怎样避免被反爬_Python 爬虫防止被网站封禁的常见策略
如何实现 Python 爬虫中的反爬虫防御策略
Python 爬虫反反爬虫策略：有效规避网站封禁的反制方案 (行为模拟 + 特征隐藏)
Python 解析网络爬虫反爬机制与应对策略
Python 爬虫中的反爬虫机制应对策略与实践
防范 Python 反爬虫技术详解
【Python 爬虫反爬技巧大揭秘】:掌握 8 大核心策略，轻松突破 99% 网站防护
Python 爬虫的反爬虫机制与应对策略