Filebeat 直接输出到 Elasticsearch 好还是通过 Logstash 收集更好？

没有绝对的“更好”，只有“更适合”。如果只是为了把日志从服务器搬到 Elasticsearch，且不需要复杂清洗，Filebeat 直连更省资源；如果需要解析、过滤、丰富数据，或者需要缓冲队列，中间加一层 Logstash 更稳妥。

先说结论：轻量采集选 Filebeat 直连，复杂处理选 Filebeat+Logstash 组合

适合直连：资源受限、日志格式简单、无需复杂 ETL 的场景
适合中转：需要 grok 解析、字段丰富、多源聚合或需要缓冲队列的场景
关键风险：Filebeat 直连 ES 时需配置磁盘队列，避免 ES 宕机导致本地磁盘写满；Logstash 同样支持断点续传，但资源开销更大

核心选型逻辑

这不是一个靠命令切换的开关，而是架构选型。Filebeat 被设计为轻量级的“搬运工”，专为 ELK/EFK 栈设计，资源开销低，适合部署在业务服务器上收集日志。Logstash 则是功能强大的处理引擎，擅长数据过滤、分析和格式化，但资源消耗相对较高。

关于数据可靠性，Filebeat 和 Logstash 的 file 输入插件均基于 offset 机制记录读取位置。正常关闭或重启情况下，两者均支持断点续传，不会轻易丢失事件。选择的关键在于资源占用与处理能力的平衡：

业务服务器资源紧张：优先使用 Filebeat 直连，避免 Logstash 占用过多 CPU/内存影响业务。
日志需复杂清洗：Filebeat 处理能力有限，强行在 Filebeat 做复杂解析会影响采集性能，应交由 Logstash 处理。

生产环境配置最佳实践

示例配置包含安全认证、SSL 加密及队列缓冲设置，请勿直接复制密码，需根据实际环境调整。

1. Filebeat 直连 Elasticsearch 配置

output.elasticsearch:
  hosts: ["https://es-node:9200"]
  username: "elastic"
  password: "your_password"
  # 启用 SSL 验证
  ssl.certificate_authorities: ["/etc/pki/tls/certs/ca.crt"]
  # 配置磁盘队列，防止 ES 宕机时内存队列溢出导致数据丢失或磁盘写满
  queue.spool:
    write:
      timeout: 5s
    file:
      path: ${path.data}/spool.dat
      size: 100MiB
      page_size: 16KB

2. Filebeat 发送 Logstash 配置

output.logstash:
  hosts: ["logstash-node:5044"]
  ssl.certificate_authorities: ["/etc/pki/tls/certs/ca.crt"]
  # 开启 TLS 加密传输
  ssl.enabled: true

3. Logstash Pipeline 解析示例

input {
  beats {
    port => 5044
    ssl => true
    ssl_certificate => "/etc/logstash/certs/logstash.crt"
    ssl_key => "/etc/logstash/certs/logstash.key"
  }
}
filter {
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }
}
output {
  elasticsearch {
    hosts => ["https://es-node:9200"]
    user => "elastic"
    password => "your_password"
    ssl => true
    ssl_certificate_verification => true
  }
}

验证与排查步骤

配置完成后，务必通过以下命令验证连通性与配置有效性。

1. 验证 Filebeat 配置

使用官方测试命令检查输出配置是否可达：

Filebeat 直接输出到 Elasticsearch 好还是通过 Logstash 收集更好？

filebeat test output -c filebeat.yml -e

若输出 elasticsearch: talk to server... OK 则表示连通正常。

2. 验证网络连通性

若测试失败，先检查网络端口是否通畅：

# 检查 ES 端口
telnet es-node 9200
# 或检查 Logstash 端口
telnet logstash-node 5044

3. 验证数据索引

curl -u elastic:your_password -k https://es-node:9200/_cat/indices?v

观察是否有 filebeat- 开头的新索引，且文档数量随日志写入增长。

常见风险与规避

磁盘队列限制：Filebeat 直连 ES 时，若 ES 长时间宕机，Filebeat 会将数据缓存到本地磁盘。需监控 queue.spool.file.path 所在分区的使用率，避免磁盘写满导致业务异常。
版本兼容性：Filebeat、Logstash 和 Elasticsearch 版本建议保持大版本一致（如 7.x 系列），避免协议不匹配导致连接失败。
安全配置缺失：生产环境严禁明文传输。务必开启 SSL/TLS 加密，并配置账号密码认证，防止日志数据泄露。
处理能力瓶颈：若日志量巨大且需复杂解析，单点 Logstash 可能成为瓶颈。建议评估 Logstash 节点资源，或引入 Kafka 作为缓冲层。

架构演进建议

在经典 ELK 架构（Filebeat+Logstash+ES）中，若数据量激增且无消息队列缓冲，存在数据丢失风险。对于高可用要求较高的场景，建议演进为 Filebeat + Kafka + Logstash + Elasticsearch 架构：

Kafka 作用：作为缓冲队列，削峰填谷，解耦采集与处理层。
优势：即使 ES 或 Logstash 短暂不可用，数据仍保留在 Kafka 中，待恢复后继续消费，大幅提升链路可靠性。