如何优化 Embedding 模型在 CPU 环境下的推理速度

在 CPU 环境下优化 Embedding 模型推理速度，最推荐的方向是切换至 ONNX Runtime 或 OpenVINO 推理引擎，并选用参数量较小的蒸馏模型。主要风险边界在于量化操作可能导致向量相似度精度轻微下降，需在业务容忍范围内验证。

先说结论：CPU 推理优化核心在于减少计算量和利用指令集加速，而非单纯增加硬件资源。

命令速用版

通过环境变量控制线程数，并安装专用推理库：

export OMP_NUM_THREADS=4
export MKL_NUM_THREADS=4
pip install onnxruntime sentence-transformers

CPU 缺乏 GPU 的并行张量核心，必须依赖指令集优化和精度降低来换取速度。PyTorch 默认计算图包含大量动态开销，而 ONNX 静态图能更好地融合算子。

步骤 1：选用轻量级模型
优先选择经过蒸馏的模型，例如 sentence-transformers 库中的 all-MiniLM-L6-v2，参数量小且 CPU 友好。

步骤 2：导出 ONNX 模型
使用 optimum 库将 PyTorch 模型导出为 ONNX 格式，以便推理引擎优化。

from optimum.onnxruntime import ORTModelForFeatureExtraction
model = ORTModelForFeatureExtraction.from_pretrained("model_id", export=True)

步骤 3：启用量化
在 ONNX Runtime 中启用动态量化，将浮点运算转为整数运算，减少内存带宽压力。

步骤 4：调整线程配置
避免线程数超过物理核心数，防止操作系统调度开销抵消计算收益。

使用 Python 脚本记录推理起止时间，并计算单位时间内处理的文本数量。同时抽样比对原始模型与优化模型的向量余弦相似度，差异应控制在小数点后 4 位以内。

1. 线程数设置过大导致 CPU 上下文切换频繁，反而降低吞吐量。
2. 量化后向量分布偏移，导致召回率下降，需重新评估阈值。
3. 部分旧 CPU 不支持 AVX2 指令集，ONNX Runtime 可能无法启用加速指令。

公开资料中没有看到可靠的量化数据，通常 INT8 量化对语义相似度影响较小，但需业务验证。

适合中小批量并发，大批量任务建议增加节点横向扩展而非单机堆线程。

不是必须，但 ONNX Runtime 在 CPU 上的算子融合效果通常优于原生 PyTorch。

Hugging Face Sentence Transformers Documentation, https://huggingface.co/docs/sentence-transformers
ONNX Runtime Performance Optimization Guide, https://onnxruntime.ai/docs/performance/
Intel OpenVINO Toolkit Documentation, https://docs.openvino.ai/