Logstash 如何实现多实例负载均衡避免单点故障瓶颈

实现 Logstash 多实例负载均衡最稳妥的方案是在采集端（如 Filebeat）配置多节点输出并开启负载均衡，配合持久化队列防止数据丢失。

先说结论：单点故障只能通过多实例架构解决，单纯增加配置无法避免节点宕机风险，需结合客户端负载均衡与服务端队列机制。

核心配置示例

以下是 Filebeat 开启负载均衡的核心配置片段，指向多个 Logstash 实例：

output.logstash:
  hosts: ["192.168.1.10:5044", "192.168.1.11:5044"]
  loadbalance: true

Logstash 服务端调整线程数以匹配 CPU 核心，并启用持久化队列：

pipeline.workers: 8
queue.type: persisted
queue.max_bytes: 10gb # 注意：需确保磁盘空间充足

1. 部署多实例
至少准备两台服务器安装 Logstash，确保版本一致。如果条件允许，在不同物理机或可用区部署，避免硬件故障导致集体不可用。

2. 配置采集端负载均衡
在 Filebeat 配置文件中，`output.logstash` 部分填写所有 Logstash 实例的 IP 和端口，并设置 `loadbalance: true`。

3. 启用持久化队列
编辑 Logstash 的 `logstash.yml`，将 `queue.type` 设置为 `persisted`。根据服务器磁盘空间设置 `queue.max_bytes`，避免磁盘写满导致服务异常。

4. 重启服务使配置生效
修改配置后，需重启服务验证：

sudo systemctl restart logstash
sudo systemctl status logstash

sudo systemctl restart filebeat
sudo systemctl status filebeat

增加 `pipeline.workers` 会线性增加内存消耗。调整前务必监控 JVM 堆内存使用情况，避免 OOM。

内存配置建议：

# jvm.options 示例
-Xms4g
-Xmx4g

1. 检查采集端日志
查看 Filebeat 日志，确认没有持续的连接报错。如果配置了多主机，日志中应能看到连接不同 IP 的记录。

tail -f /var/log/filebeat/filebeat

2. 模拟故障测试
手动停止其中一台 Logstash 服务，观察业务日志是否继续出现在剩余的 Logstash 实例输出中。同时检查 Elasticsearch 或目标存储，确认日志时间戳连续，没有长时间断档。

3. 监控资源使用
使用监控工具观察各 Logstash 节点的 CPU 和内存负载。负载均衡生效后，各节点的负载应相对均匀。

1. 数据重复问题
在某些配置下，如果 Logstash 处理失败重试，可能会导致 Elasticsearch 中出现重复文档。需在输出端配置去重机制或确保幂等性。

2. 连接重置报错
如果 Filebeat 日志出现 `connection reset by peer`，可能是 Logstash 端超时设置过短。可在 Logstash 输入插件中调整 `client_inactivity_timeout` 参数。

3. 磁盘空间不足
启用持久化队列后，若 `queue.max_bytes` 设置过大且日志积压，可能占满磁盘。需监控磁盘使用率并设置合理的队列上限。