如何使用 multiprocessing 多进程加速 Python 数据清洗任务

Python 数据清洗任务若属于 CPU 密集型，推荐使用 multiprocessing 模块的多进程方案加速。适用场景为大规模数据处理，风险边界在于进程间通信开销和内存占用增加。

先说结论：multiprocessing 通过绕过 GIL 锁实现并行计算，适合 CPU 密集型清洗任务。

先定位：确认任务是否受 GIL 限制且数据量足够大。
先做：使用 Pool 映射处理函数到数据块。
再验证：对比单进程与多进程耗时及 CPU 利用率。

命令速用版

from multiprocessing import Pool

def clean_row(data):
    # 此处编写单行数据清洗逻辑
    return data.strip().lower()

if __name__ == "__main__":
    dataset = ["Row1", "Row2", "Row3"] * 10000
    with Pool(processes=4) as pool:
        result = pool.map(clean_row, dataset)
    print(len(result))

为什么会这样

Python 解释器存在全局解释器锁（GIL），导致同一时刻只有一个线程执行字节码。

多线程无法利用多核 CPU 处理计算密集型任务，而 multiprocessing 启动独立进程，每个进程拥有独立的解释器和内存空间，从而绕过 GIL 限制实现真正的并行计算。对于数据清洗中常见的正则匹配、格式转换、复杂逻辑判断等 CPU 密集型操作，多进程能显著缩短处理时间。

分步处理

第一步：确认任务类型。

检查清洗逻辑是否包含大量循环、计算或正则操作。若任务主要是等待网络请求或磁盘 I/O，应优先考虑异步 IO 而非多进程。

第二步：确定进程数量。

通常将进程数设置为 CPU 核心数。可通过 os.cpu_count() 获取默认值，避免创建过多进程导致上下文切换开销过大。

第三步：编写独立处理函数。

确保清洗函数无外部依赖的全局状态修改。多进程间内存不共享，全局变量在子进程中是副本，修改不会影响主进程或其他子进程。

第四步：使用进程池提交任务。

推荐使用 multiprocessing.Pool 的 map 或 imap 方法。map 会等待所有结果返回，imap 可迭代返回结果，适合处理超大数据集以减少内存压力。

第五步：关闭进程池。

使用 with 语句上下文管理器自动关闭，或显式调用 pool.close() 和 pool.join()，确保资源释放。

怎么验证是否生效

使用 time 模块记录任务开始和结束时间，计算总耗时。

如何使用 multiprocessing 多进程加速 Python 数据清洗任务

在 Linux 系统下使用 top 命令观察 Python 进程占用率，多进程生效时可以看到多个 Python 进程 CPU 占用率总和接近核心数乘以 100%。

对比单进程版本和多进程版本的运行时间，若数据量较小，多进程可能因启动开销反而更慢，需确保数据规模达到阈值。

常见坑

第一，对象不可序列化。

多进程传递参数需要使用 pickle 序列化，若函数依赖 lambda、局部函数或不可 pickle 的对象，会报错。建议将处理函数定义在模块顶层。

第二，内存爆炸。

每个进程复制一份主进程内存数据。若数据集极大，直接传入列表会导致内存倍增。建议结合生成器或分块读取文件。

第三，全局变量无效。

不要在子进程中依赖全局变量计数或状态存储。如需共享状态，需使用 multiprocessing.Queue 或 Manager 对象，但这会引入通信开销。

常见问题

数据清洗任务应该用多线程还是多进程？

CPU 密集型清洗任务用多进程，IO 密集型任务用多线程或异步。

若清洗逻辑涉及大量计算，多线程受 GIL 限制无法并行，必须用多进程。若清洗任务主要是读写文件或网络请求，多线程开销更小。

进程数设置多少最合适？

通常设置为 CPU 核心数，可通过 os.cpu_count() 获取。

过多进程会导致频繁上下文切换降低性能，过少进程无法充分利用硬件资源。IO 密集型场景可适当增加进程数掩盖等待时间。

如何在多进程间共享数据？

使用 multiprocessing.Queue、Pipe 或 Manager 对象。

默认情况下进程间内存隔离。Queue 适合传递消息，Manager 适合共享字典或列表，但性能低于本地内存访问。

参考来源

Python 官方文档 - multiprocessing — Process-based parallelism，URL: https://docs.python.org/3/library/multiprocessing.html