Elasticsearch 节点宕机后数据分片未分配如何手动重试分配

Elasticsearch 节点宕机后，集群通常会自动恢复分片。只有在自动重试失败或分配被禁用时，才需要手动干预。操作前务必评估数据风险。

先说结论：手动重试分配是解决因临时故障导致分片卡住的有效手段，但操作前必须确认主分片数据是否完好，避免强制分配空分片造成数据丢失。

操作前风险提示

在执行重试命令前，请确认承载主分片的节点是否永久损坏。如果主分片数据已丢失且无副本，强制分配会导致数据永久丢失。建议优先尝试恢复故障节点，若无法恢复，再考虑以下操作。

1. 查看未分配分片状态

使用以下命令定位处于 UNASSIGNED 状态的分片：

GET _cat/shards?v&h=index,shard,prirep,state,node,unassigned.reason

2. 查询具体未分配原因

使用 allocation/explain 接口获取详细诊断信息。需指定索引名、分片号及是否为主分片：

GET _cluster/allocation/explain
{
  "index": "your_index_name",
  "shard": 0,
  "primary": true
}

返回结果中的 current_state 和 unassigned_info 字段会说明具体阻碍原因。

3. 检查并恢复分片分配设置

确认集群是否禁用了分片分配。查看当前设置：

GET _cluster/settings

如果 cluster.routing.allocation.enable 不是 all，需执行以下命令恢复：

PUT _cluster/settings
{
  "transient": {
    "cluster.routing.allocation.enable": "all"
  }
}

4. 手动触发重试分配

确认节点已恢复或配置无误后，触发重试：

POST _cluster/reroute?retry_failed=true

执行以下命令观察集群状态：

GET _cluster/health

确认 status 是否从 red/yellow 转为 green。同时再次检查分片列表，确认未分配分片数量归零：

GET _cat/shards?v&h=index,shard,prirep,state,node

Elastic 官方文档 - Cluster Reroute API (https://www.elastic.co/guide/en/elasticsearch/reference/current/cluster-reroute.html)
Elastic 官方文档 - Shard Allocation (https://www.elastic.co/guide/en/elasticsearch/reference/current/shard-allocation.html)