怎么在 CVM 实例上配置云监控 Agent 实现 CPU 报警?

文章导读
最推荐的方式是通过腾讯云控制台一键安装监控插件,然后在云监控控制台配置告警策略,适合大多数需要获取操作系统内部指标的场景。
📋 目录
  1. 插件状态验证与命令行安装
  2. 配置告警策略
  3. 常见监控指标 ID 对照
  4. 验证与测试
  5. 常见坑
  6. 参考来源
A A

最推荐的方式是通过腾讯云控制台一键安装监控插件,然后在云监控控制台配置告警策略,适合大多数需要获取操作系统内部指标的场景。

先说结论:安装监控插件是获取准确 CPU 内部指标的前提,告警配置需在云监控控制台完成。

  • 适合:需要监控操作系统内部 CPU 使用率而非仅 hypervisor 视角的场景
  • 先准备:确保 CVM 实例具有访问腾讯云内网源站的网络权限
  • 验收:在云监控控制台能看到该实例的 CPU 监控曲线且无断点

插件状态验证与命令行安装

目前推荐直接在控制台操作安装,比手动执行脚本更稳定。若需通过命令行安装或验证插件状态,可参考以下方法:

1. 验证插件状态

登录实例执行以下命令,若服务状态为 active (running),说明插件运行正常:

systemctl status qmonitor

2. 命令行安装(备选)

怎么在 CVM 实例上配置云监控 Agent 实现 CPU 报警?

若控制台安装失败,可尝试手动脚本安装。请先在云监控控制台获取当前区域最新的安装脚本链接,替换下方 <脚本链接> 后执行:

curl -sSL <脚本链接> | bash

安装操作也可在 CVM 控制台实例详情页找到“监控/安全”相关入口点击安装。

配置告警策略

1. 进入云监控控制台:安装完成后,访问云监控产品页面,在左侧导航栏找到“告警管理”->“告警策略”。

2. 创建策略:点击“新建”,选择监控对象为已安装插件的 CVM 实例。在指标选择中,查找与 CPU 相关的指标。

3. 选择正确指标:务必选择插件上报的指标,通常显示为"CPU 使用率 (插件)"或对应指标 ID cpu_usage_active,避免选成基础监控指标。

怎么在 CVM 实例上配置云监控 Agent 实现 CPU 报警?

4. 设置阈值:设定触发条件,例如“平均值大于 80% 持续 5 分钟”。配置通知渠道,确保短信、邮件或微信能收到通知。

5. 保存生效:确认策略范围和时间段,点击保存。策略通常在 1-5 分钟内生效。

常见监控指标 ID 对照

配置告警或调用 API 时,需区分基础监控与插件监控指标,常见 CPU 相关指标如下:

  • CPU 使用率 (基础监控):指标名通常为 cpu_usage,源自 hypervisor 层,无法反映进程级消耗。
  • CPU 使用率 (插件监控):指标名通常为 cpu_usage_active,源自操作系统内部,适合精细化告警。

验证与测试

1. 查看监控数据:在云监控控制台的“监控视图”中,选中该实例,查看 CPU 使用率曲线。若曲线连续且有数据波动,说明插件上报正常。

2. 测试告警(谨慎操作):可在测试环境通过压力工具(如 stress)临时拉高 CPU 使用率,观察是否收到告警通知。严禁在生产环境直接执行压力测试,可能导致业务抖动。

怎么在 CVM 实例上配置云监控 Agent 实现 CPU 报警?

3. 检查告警历史:在“告警管理”->“告警历史”中,查看是否有策略触发的记录,确认通知渠道是否通畅。

常见坑

1. 网络不通:若实例位于私有网络且未配置 NAT 网关或代理,插件可能无法连接监控服务端,导致数据断报。需确保安全组和网络 ACL 放行相关域名。

2. 指标选错:基础监控和插件监控的指标名称可能不同,配置告警时请确认选择了插件上报的指标,否则可能无法触发。

3. 通知渠道未验证:创建了策略但未绑定有效的通知模板或接收人,导致告警触发后无人知晓。需在通知管理中预先验证联系人。

4. 权限不足:操作子账号可能缺乏云监控或 CVM 的操作权限,导致安装插件或创建策略失败,需检查 CAM 权限策略。

参考来源

  • 腾讯云官方文档 - 云监控产品页面,URL: https://cloud.tencent.com/document/product/248
  • 腾讯云官方文档 - 监控插件安装指南,可在云监控控制台帮助文档中查阅