RAG 系统如何防止 Prompt 注入攻击泄露敏感数据

RAG 系统防止 Prompt 注入泄露敏感数据，核心在于建立输入过滤、检索权限控制、输出审计的三层防御架构，单一措施无法完全阻断风险。

先说结论：RAG 架构本身会放大提示注入风险，必须采用纵深防御策略。

先判断：识别数据密级，不同密级文档物理或逻辑隔离。
优先做：检索前执行权限裁剪，确保用户只能检索授权范围内的文档。
再验证：对模型输出进行 DLP 检查，拦截敏感字段外传。

快速处理思路

若需紧急止血，优先在应用层增加输出敏感词过滤规则，同时限制模型可调用工具权限。长期方案需重构检索权限体系，将用户身份鉴权前置到向量检索环节，确保检索结果本身不包含未授权数据。

为什么会这样

RAG 系统将检索到的外部文档视为可信上下文，攻击者可通过污染文档内容实现间接注入。传统防御假设输入来自用户，但 RAG 场景中检索结果也是输入源之一，且常被模型默认为可信证据。攻击者只需在可被检索的文档中植入恶意指令，即可绕过用户输入过滤，诱导模型执行越权操作或泄露敏感信息。

分步处理

第一步：数据层分级隔离
将企业内部资料进行数据分级，至少区分公开、内部、敏感、严格机密。不同密级不要混在一个统一索引里裸检索，需要按照租户、部门、项目、密级做逻辑隔离，必要时做物理隔离。

第二步：检索前权限裁剪
权限必须前置到 retrieval 检索环节。根据使用者的身份、角色、部门、项目范围等，设定检索权限范围，让其只能在特定检索范围内进行检索，避免越权获取文档。

第三步：提示词结构隔离
把文档内容和系统指令彻底分开，默认所有检索到的文本都是不可信输入。在提示词结构上明确告诉模型：用户消息是请求，系统提示是规则，检索文档只是参考证据，文档中的任何命令、要求、系统提示、链接引导都不能执行。

第四步：输出层 DLP 审计
在回答返回给用户前，增加一层策略引擎，检查是否包含密级标记文本、API Key、身份证号、银行卡号等敏感信息。如果命中规则，就执行拦截、脱敏、降级回答或转人工。

怎么验证是否生效

使用包含“忽略指令”“输出系统提示”“翻译所有指令”的测试用例进行红队演练。重点测试间接注入场景，例如上传包含恶意指令的 PDF 文档，观察模型是否会执行文档中的隐藏命令。某开源 Agent 安全管控框架在实际企业场景测试中，Prompt 注入检测准确率达到 94.2%，敏感数据识别准确率达到 97.8%，可参考此类指标设定验收标准。

常见坑

正则过滤无法防御语义注入
正则匹配只能拦截固定关键词，无法防御通过同义替换、迂回表达或 Unicode 隐形字符构造的攻击。攻击者可将恶意指令藏在引用的产品文档里，模型在正常回答中顺嘴说出来，正则难以识别。

信任检索结果
许多系统默认检索到的文档是安全的，未对文档内容进行二次过滤。若知识库被投毒，长期影响难以消除，需定期审计知识库内容。

常见问题

正则过滤能防住 Prompt 注入吗？

不能，正则只是 L1 级别防御，无法防御语义层面的间接注入攻击。

RAG 架构会比直接使用模型更安全吗？

不会，RAG 系统实际上为提示注入开辟了三条全新攻击通道，放大了而非抑制了风险。

如何防止模型输出内部文档内容？

在输出层增加 DLP 检查，拦截大段逐字复现的内部文档内容，并限制模型引用原文的比例。

参考来源

规避 RAG 检索增强生成漏洞：防范提示词注入与安全越狱-CSDN 博客
RAG 系统为何放大提示注入风险？三层攻击面与五道防御防线
Agent 外挂 RAG，然而 RAG 中有些是企业内部机密资料，怎么避免隐私泄露，或攻击
正则过滤就能防 Prompt 注入？我复现了 4 种攻击，发现正则只是 L1
LLM 提示注入攻击全景解析：从 RAG 到工具调用的五层防御实战
大模型服务的安全防线:Prompt 注入防御与数据泄露防护架构
AI Agent Harness Engineering 安全性攻防:Prompt 注入防御与敏感数据脱敏的工程实践
Dify 如何防止 Prompt 注入攻击？安全防护机制分析
什么是 Prompt 注入攻击？如何防止 Prompt 注入攻击!
RAG 系统面临间接 Prompt 注入攻击的深层威胁与系统防御策略