Dify 知识库检索节点如何设置相似度阈值优化召回？

在 Dify 工作流的知识库检索节点中，直接调整“相似度阈值”（Score Threshold）参数可过滤低相关性的内容。该设置适合召回结果噪声过多的场景，风险边界是阈值过高会导致有效信息被遗漏。

先说结论：调整相似度阈值是平衡召回率与精准度的直接手段，需结合业务测试确定具体数值。

快速处理思路

该配置通过图形界面完成，无需命令行操作。进入应用编排页面，选中知识库检索节点，在右侧配置栏找到相似度阈值滑块或输入框，根据当前召回质量微调数值。若无法确定初始值，保留默认设置先运行一次，观察返回片段的分数分布后再决定调整方向。

相似度阈值基于向量距离计算，分值越低代表语义距离越远。Dify 知识库检索本质是向量搜索，系统会计算用户查询向量与知识库文档片段的向量余弦相似度。设置阈值相当于设立一道分数线，低于该分数的片段不会被送入后续的生成环节，从而减少大模型处理噪声数据的概率，但同时也增加了漏掉边缘相关信息的风险。

1. 进入 Dify 应用编排界面，选择“工作流”或“聊天型应用”配置页。

2. 找到画布中的“知识库检索”节点，点击打开配置面板。

3. 在检索设置区域，定位到“相似度阈值”（Score Threshold）选项。

4. 调整数值：若噪声多则调高，若漏信息则调低。公开资料中没有看到可靠的量化数据推荐具体数值，建议以 0.1 为步长微调。

5. 点击“保存”并退出编辑，确保配置生效。

使用应用预览窗口或工作流“运行”功能，输入一条测试问题。查看运行日志中的知识库检索节点输出，检查返回的 chunks 列表。确认所有返回片段的 score 字段均高于设定阈值，且低分片段不再出现。若开启日志记录，可在后端日志中检索 retrieval 相关记录，核对过滤前后的片段数量变化。

1. 嵌入模型变更：更换 Embedding 模型后，向量空间分布改变，原有阈值可能失效，需重新测试。

2. 与重排序冲突：若同时开启 Rerank 模型，相似度阈值是在重排序前还是后生效需确认，通常阈值过滤在检索阶段，重排序在后续阶段。

3. 阈值过高导致空返回：设置过高可能导致无片段满足条件，大模型因缺乏上下文而胡编乱造。

Dify 不同版本或不同创建方式下的默认值可能不同，请以界面实际显示为准。

检查是否命中了缓存，或确认查询内容本身与知识库相关性极高，所有片段分数均高于新阈值。

通常先通过相似度阈值进行初步筛选，再使用重排序模型对剩余片段进行精细排序，具体取决于工作流节点连接顺序。