如何配置 Scrapy 的 Item Pipeline 实现数据清洗和存储？

配置 Scrapy Item Pipeline 需要在项目 settings.py 中注册 pipeline 类路径，并在类中实现 process_item 方法处理数据。适合需要统一清洗字段、去重或存入数据库的场景，风险在于阻塞式 I/O 操作会降低爬虫抓取速度。

先说结论：Item Pipeline 是 Scrapy 处理抓取后数据的核心组件，必须手动启用才能生效。

适合：数据清洗、验证、去重、持久化存储场景
先看：settings.py 中的 ITEM_PIPELINES 字典配置
建议：优先使用 JSON Lines 测试流程，再对接数据库

快速配置思路

Scrapy 没有单一命令开启 Pipeline，需修改配置文件并重启爬虫。

# settings.py 配置示例
ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

数字代表优先级，范围通常为 0-1000，数值越小优先级越高。

为什么会这样

Pipeline 机制允许将数据处理逻辑与抓取逻辑分离。

Scrapy 引擎在 Spider 产出 Item 后，会将 Item 传递给 Pipeline 组件队列。这种设计符合单一职责原则，Spider 只负责提取数据，Pipeline 负责处理数据。如果未在 settings.py 中注册，Scrapy 默认不执行任何管道处理，数据仅会在终端显示或直接丢弃。

分步处理

按以下顺序创建并启用 Pipeline，每步完成后检查配置文件。

1. 创建 Pipeline 文件

在项目目录下创建 pipelines.py，定义处理类。类名通常以 Pipeline 结尾。

# pipelines.py
class DataCleanPipeline:
    def process_item(self, item, spider):
        # 清洗逻辑，例如去除空格
        item['title'] = item.get('title', '').strip()
        return item

2. 注册到配置文件

打开 settings.py，找到 ITEM_PIPELINES 项。确保类路径正确，包含项目包名。

ITEM_PIPELINES = {
    'myproject.pipelines.DataCleanPipeline': 300,
}

3. 实现存储逻辑

若需存储，可在 open_spider 初始化连接，在 close_spider 关闭连接，process_item 中写入数据。

def open_spider(self, spider):
    self.file = open('items.json', 'w')

def close_spider(self, spider):
    self.file.close()

4. 返回或丢弃_item

process_item 必须返回 item 对象才能传递给下一个 Pipeline。若抛出 DropItem 异常，该 item 会被丢弃。

怎么验证是否生效

通过日志输出和文件生成确认 Pipeline 是否运行。

1. 检查日志

启动爬虫时观察日志，若配置正确，Scrapy 不会报错。可在 process_item 中加入 print 或 logging 输出。

import logging
logger = logging.getLogger(__name__)
logger.info(f"Processing item: {item}")

2. 检查输出文件

若实现了文件存储，检查项目根目录是否生成 items.json 或数据库是否有新记录。

3. 验证数据内容

打开输出文件，确认字段是否已按清洗逻辑处理（如空格是否去除、字段是否缺失）。

常见坑

以下错误会导致 Pipeline 不工作或爬虫异常。

路径错误：settings.py 中的类路径字符串与实际文件结构不一致，导致 ImportError。
未返回 item：process_item 方法忘记 return item，导致后续 Pipeline 收不到数据。
阻塞操作：在 Pipeline 中执行同步网络请求或复杂计算，会阻塞 Twisted 反应堆，降低抓取效率。
优先级混淆：多个 Pipeline 顺序依赖错误，例如先存储后清洗，导致脏数据入库。

常见问题

如何启用多个 Pipeline？

在 settings.py 的 ITEM_PIPELINES 字典中添加多个键值对，Scrapy 会按优先级数值从小到大依次执行。

如何在 Pipeline 中丢弃无效数据？

引入 scrapy.exceptions.DropItem，在 process_item 中判断条件满足时 raise DropItem('原因')。

Pipeline 能访问 Spider 属性吗？

可以，process_item 方法接收 spider 参数，可通过 spider.name 或 spider.custom_settings 访问 Spider 属性。

数据库连接在哪里关闭？

建议在 close_spider 方法中关闭数据库连接，确保爬虫结束时资源被释放，避免连接泄漏。

参考来源

Scrapy Official Documentation, Item Pipeline, https://docs.scrapy.org/en/latest/topics/item-pipeline.html