Python 爬虫的多线程与多进程选择哪个性能更好？

Python 爬虫在绝大多数网络 I/O 等待场景下，多线程性能优于多进程；仅在涉及大量 CPU 计算（如复杂解析）时，多进程才具备优势。

先说结论：网络请求等待占比高的爬虫首选多线程，涉及重度 CPU 计算则选多进程。

适合：网络请求等待占比超 90% 的 I/O 密集型爬虫
重点看：CPU 密集型任务是否受 GIL 锁限制
别忽略：多进程创建开销是线程的 10-20 倍

快速处理思路

根据任务瓶颈选择并发模型，无需复杂命令，通过代码逻辑判断即可：

# 判断逻辑示例
if 任务类型 == "网络请求/文件读写":
    使用 threading 或 asyncio
elif 任务类型 == "复杂计算/数据解析":
    使用 multiprocessing
else:
    混合使用（进程池 + 线程池）

为什么会这样

核心原因是 Python 的全局解释器锁（GIL）限制了多线程的 CPU 并行能力。GIL 确保同一时刻只有一个线程执行 Python 字节码，导致多线程在 CPU 密集型任务中无法利用多核优势。但在 I/O 密集型场景（如网络请求），线程在等待响应时会释放 GIL，允许其他线程执行，从而实现并发加速。多进程通过创建独立的 Python 解释器进程，每个进程拥有独立的 GIL，可充分利用多核 CPU 资源，适合 CPU 与 I/O 混合密集型场景。

分步处理

按以下步骤确认并发模型选型，避免资源浪费：

第一步：定位任务瓶颈
分析爬虫主要耗时环节。若主要时间在等待服务器响应（网络 I/O），归类为 I/O 密集型；若主要时间在解析 HTML、计算哈希或图像处理，归类为 CPU 密集型。

第二步：选择并发模块
I/O 密集型任务使用threading模块或concurrent.futures.ThreadPoolExecutor。CPU 密集型任务使用multiprocessing模块或concurrent.futures.ProcessPoolExecutor。

第三步：配置 worker 数量
多线程 worker 数可设置为 CPU 核心数的 5-10 倍以覆盖 I/O 等待。多进程 worker 数通常设置为 CPU 核心数，避免过多进程切换开销。

怎么验证是否生效

使用time模块记录任务起止时间，对比单线程与并发模式的耗时差异。

import time
start = time.time()
# 执行爬虫任务
end = time.time()
print(f"耗时：{end - start:.2f}秒")

若 I/O 场景下并发耗时显著低于单线程（如公开测试数据中 4 线程耗时 1.28 秒对比单线程 5.12 秒），则选型生效。若 CPU 场景下多进程耗时接近单线程的 1/N（N 为进程数），则并行有效。

常见坑

线程共享同一内存空间，需注意线程安全问题，避免全局变量竞争导致数据错乱。进程拥有独立内存，创建开销是线程的 10-20 倍，少量任务使用多进程反而更慢。多进程在 Windows 下需注意if __name__ == "__main__":保护，防止递归启动进程。

常见问题

多线程在 CPU 计算任务中为什么比单线程还慢？

因为线程频繁争夺 GIL 锁加上上下文切换开销，导致性能不升反降。公开测试数据显示，4 线程计算质数耗时 29.15 秒，比单线程 28.63 秒更慢。

异步协程（asyncio）和多线程怎么选？

纯 I/O 密集型爬虫优先选异步协程，切换开销更低。若依赖不支持异步的第三方库，则选多线程。

多进程通信成本高吗？

高。进程间通过管道、队列等机制通信，开销高于线程共享内存，不适合频繁交换数据的场景。

参考来源

实测数据：多进程、多线程、异步协程爬虫速度对比
Python 多线程与多进程性能对比：从原理到实战的深度解析
Python 多进程与多线程适用场景案例分析
Python 多线程 vs 多进程最佳实践：性能优化全攻略