如何防止 AI 编程助手上传公司核心代码到公共模型训练集？

防止 AI 编程助手上传核心代码，最可靠的方法是采购企业版服务并签署数据隐私协议，同时在 IDE 插件中关闭遥测和数据共享选项。

适用场景为所有使用云端推理模型的团队，风险边界在于本地缓存泄露和开发者手动复制粘贴代码到公共网页模型。

先说结论：个人版 AI 助手通常保留训练权，企业版通过合同限制数据留存，配合网络策略可进一步阻断上传。

快速处理思路

如果不便立即采购企业版，可先在 IDE 设置中禁用 AI 插件，或使用本地部署的代码模型替代云端服务。

AI 编程助手需要将当前编辑的文件上下文发送到服务端进行推理，部分服务商默认将脱敏后的代码用于模型迭代。

云端模型为了提供补全建议，必须接收代码片段。个人版服务条款通常包含数据使用权，而企业版服务条款明确排除训练用途。公开资料中没有看到可靠的量化数据说明具体有多少代码被误用，但合同约束是主要防线。

步骤 1：核查服务条款与版本

登录助手管理后台，查看订阅类型。GitHub Copilot Business 和 Amazon CodeWhisperer Professional 明确承诺不保留客户代码用于训练。

步骤 2：配置插件隐私设置

在 IDE 设置中找到 AI 插件配置，关闭 Telemetry 或 Data Sharing 选项。例如 VS Code 设置中搜索 Copilot 相关隐私项。

步骤 3：实施网络隔离

在防火墙或网络出口规则中，仅允许 AI 助手连接指定的企业端点，阻断公共训练数据接收域名。

步骤 4：部署本地 DLP 策略

使用代码扫描工具监控包含敏感关键字的文件是否被外部进程读取或发送。

查看 IDE 的网络流量日志，确认没有向非授权域名发送 POST 请求。登录助手服务商的管理控制台，确认数据保留策略显示为“Disabled”或“Enterprise Privacy”。

会，个人版条款允许使用代码改进模型，企业版明确禁止。

本地部署不涉及数据外传，但需确保模型文件来源可信且运行环境隔离。

通常不会，遥测主要用于产品改进，关闭后不影响核心推理请求。

GitHub Docs, "GitHub Copilot privacy statement", https://docs.github.com/en/copilot/overview-of-github-copilot/about-github-copilot-business
AWS Docs, "Amazon CodeWhisperer - Data Privacy", https://aws.amazon.com/codewhisperer/