如何在离线内网环境中部署本地化 AI 编程辅助模型服务？

在离线内网环境部署本地化 AI 编程辅助模型，最推荐通过外网机器下载模型文件与依赖包，经物理介质转移至内网服务器，使用 Ollama 或 vLLM 启动推理服务。适用场景为数据敏感无法出网的研发网络，风险边界在于显卡驱动版本与模型量化格式必须严格匹配。

先说结论：离线部署核心在于模型文件与推理引擎的预先打包，需确保内网服务器具备本地推理算力。

命令速用版

以下命令用于在内网服务器加载镜像并启动服务，假设已转移 Docker 镜像 tar 包和模型文件。

docker load -i ollama-offline.tar
docker run -d `--gpus` all -v /data/models:/root/.ollama -p 11434:11434 ollama/ollama
ollama run codellama:7b

离线部署的本质是将云端推理能力迁移至本地硬件，以切断数据外传路径。

AI 编程辅助依赖大语言模型进行代码生成，通常需联网调用 API。在内网环境中，直接调用公网服务违反安全合规要求。通过本地部署推理引擎，模型权重存储在内网磁盘，推理计算在内网 GPU 或 CPU 完成，从物理层面隔绝代码数据外泄风险。

步骤 1：外网环境准备模型与镜像

在有网络环境的机器上，下载推理服务 Docker 镜像并保存为 tar 包，同时下载目标模型权重文件。公开资料中没有看到可靠的量化数据表明具体下载时长，需根据带宽预估。

docker pull ollama/ollama
docker save -o ollama-offline.tar ollama/ollama

步骤 2：物理介质转移文件

使用加密硬盘或光盘将 tar 包与模型文件拷贝至内网服务器，注意检查文件完整性校验码。

步骤 3：内网加载与启动

在内网服务器加载镜像，映射模型存储目录，启动容器。确保 NVIDIA 驱动与 Container Toolkit 已安装。

步骤 4：配置 IDE 插件

在 VS Code 或 JetBrains IDE 中安装支持本地模型的插件，将 API 端点指向内网服务器 IP 及端口。

通过 curl 命令测试接口连通性，并在 IDE 中输入代码注释观察补全响应。

curl http://localhost:11434/api/tags

若返回模型列表 JSON 数据，说明服务正常。在编辑器中输入函数定义，若出现灰色代码建议，说明推理服务已响应。

可以部署，但推理速度会显著下降。

CPU 推理方案支持无显卡环境，但代码补全延迟可能增加，影响开发体验。

需在外网下载新模型文件后再次通过物理介质转移。

离线环境无法自动 pull 更新，必须重复下载与拷贝流程，建议建立定期同步机制。

建议根据显存大小选择 7B 或 14B 参数量模型。

通常建议根据显存容量选择模型，较小参数模型对显存要求相对较低。

Ollama GitHub Repository, "ollama/ollama", https://github.com/ollama/ollama
Hugging Face, "Hugging Face – The AI community building the future.", https://huggingface.co
NVIDIA Developer, "CUDA Toolkit Documentation", https://docs.nvidia.com/cuda/