Elasticsearch 查询结果排序慢如何优化 doc_values 配置？

查询排序慢的核心原因通常不是 doc_values 配置项需要调整，而是字段映射类型不当导致无法使用磁盘级的 doc_values，转而消耗堆内存加载 fielddata。最推荐的做法是确认排序字段是否为 keyword 类型并确保 doc_values 启用。

先说结论：大多数情况下不需要手动调整 doc_values 参数，而是需要修正字段映射类型以避免使用 fielddata。

先定位：检查排序字段是否被映射为 text 类型且开启了 fielddata。
先做：创建新索引将排序字段改为 keyword 类型，并通过 reindex 迁移数据。
再验证：使用 Profile API 确认排序阶段不再加载 fielddata，并通过别名切换实现无感发布。

核心误区与原理

Elasticsearch 中，keyword 类型默认开启 doc_values（磁盘列式存储），适合排序和聚合；text 类型默认关闭 doc_values，若强行排序需开启 fielddata（JVM 堆内存）。

fielddata 会将数据加载到内存，不仅速度慢，还容易导致内存溢出（OOM）。因此，排序慢的本质往往不是 doc_values 配置不够好，而是根本没有用到 doc_values。

诊断步骤

1. 检查字段映射

使用以下命令查看排序字段的定义。重点看 type 是否为 keyword，以及 doc_values 是否为 true（keyword 类型默认即为 true）。

Elasticsearch 查询结果排序慢如何优化 doc_values 配置？

GET /your_index_name/_mapping

2. 识别风险配置

如果字段是 text 类型，Elasticsearch 默认关闭 doc_values。若发现 mapping 中包含 "fielddata": true，说明正在消耗堆内存进行排序，这是性能隐患。

完整修复工作流

修改字段类型无法直接更新 mapping，必须重建索引。生产环境建议采用别名切换方案以避免业务中断。

1. 创建新索引并定义正确映射

先创建包含正确 mapping 的新索引，确保排序字段为 keyword 类型。

PUT /new_index_name
{
  "mappings": {
    "properties": {
      "your_field": {
        "type": "keyword",
        "doc_values": true
      }
    }
  }
}

2. 执行数据迁移

使用 _reindex 将数据从旧索引复制到新索引。此时新索引的 mapping 会生效。

POST _reindex
{
  "source": { "index": "old_index_name" },
  "dest": { "index": "new_index_name" }
}

3. 原子切换别名（避免业务中断）

假设业务代码连接的是别名 my_alias，通过原子操作将别名指向新索引。

POST _aliases
{
  "actions": [
    { "remove": { "index": "old_index_name", "alias": "my_alias" } },
    { "add": { "index": "new_index_name", "alias": "my_alias" } }
  ]
}

4. 清理旧索引

观察业务运行稳定后（建议至少 24 小时），再删除旧索引释放空间。

DELETE /old_index_name

验证方法

使用 Profile API 分析查询开销，确认排序不再依赖 fielddata。

GET /my_alias/_search?profile=true
{
  "sort": [ { "your_field": "asc" } ]
}

正常情况：profile 结果中不应出现 fielddata 相关的收集器警告，排序阶段耗时较低，主要消耗在 collector 而非内存加载。

异常情况：若看到 Collector: org.elasticsearch.search.internal.FielddataCollector 或堆内存占用飙升，说明仍在使用 fielddata，需检查 mapping 是否生效。

生产环境注意事项

别名切换：务必使用 Alias 原子切换，避免重建期间服务不可用。业务代码应连接别名而非具体索引名。
磁盘空间：重建索引期间需要双倍磁盘空间，操作前请评估容量，doc_values 会增加磁盘占用。
回滚方案：保留旧索引至少 24 小时，确认新索引无误后再删除，以便紧急回滚。
磁盘 I/O 瓶颈：doc_values 存储在磁盘上，如果磁盘读写速度慢，即使配置正确，排序依然会慢。这不是配置问题，是硬件瓶颈。

参考来源

Elasticsearch Guide, "Doc values", https://www.elastic.co/guide/en/elasticsearch/reference/current/doc-values.html
Elasticsearch Guide, "Mapping", https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html
Elasticsearch Guide, "Fielddata", https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html