最推荐的方式是通过腾讯云控制台一键安装监控插件,然后在云监控控制台配置告警策略,适合大多数需要获取操作系统内部指标的场景。
先说结论:安装监控插件是获取准确 CPU 内部指标的前提,告警配置需在云监控控制台完成。
- 适合:需要监控操作系统内部 CPU 使用率而非仅 hypervisor 视角的场景
- 先准备:确保 CVM 实例具有访问腾讯云内网源站的网络权限
- 验收:在云监控控制台能看到该实例的 CPU 监控曲线且无断点
插件状态验证与命令行安装
目前推荐直接在控制台操作安装,比手动执行脚本更稳定。若需通过命令行安装或验证插件状态,可参考以下方法:
1. 验证插件状态
登录实例执行以下命令,若服务状态为 active (running),说明插件运行正常:
systemctl status qmonitor2. 命令行安装(备选)
若控制台安装失败,可尝试手动脚本安装。请先在云监控控制台获取当前区域最新的安装脚本链接,替换下方 <脚本链接> 后执行:
curl -sSL <脚本链接> | bash安装操作也可在 CVM 控制台实例详情页找到“监控/安全”相关入口点击安装。
配置告警策略
1. 进入云监控控制台:安装完成后,访问云监控产品页面,在左侧导航栏找到“告警管理”->“告警策略”。
2. 创建策略:点击“新建”,选择监控对象为已安装插件的 CVM 实例。在指标选择中,查找与 CPU 相关的指标。
3. 选择正确指标:务必选择插件上报的指标,通常显示为"CPU 使用率 (插件)"或对应指标 ID cpu_usage_active,避免选成基础监控指标。
4. 设置阈值:设定触发条件,例如“平均值大于 80% 持续 5 分钟”。配置通知渠道,确保短信、邮件或微信能收到通知。
5. 保存生效:确认策略范围和时间段,点击保存。策略通常在 1-5 分钟内生效。
常见监控指标 ID 对照
配置告警或调用 API 时,需区分基础监控与插件监控指标,常见 CPU 相关指标如下:
- CPU 使用率 (基础监控):指标名通常为
cpu_usage,源自 hypervisor 层,无法反映进程级消耗。 - CPU 使用率 (插件监控):指标名通常为
cpu_usage_active,源自操作系统内部,适合精细化告警。
验证与测试
1. 查看监控数据:在云监控控制台的“监控视图”中,选中该实例,查看 CPU 使用率曲线。若曲线连续且有数据波动,说明插件上报正常。
2. 测试告警(谨慎操作):可在测试环境通过压力工具(如 stress)临时拉高 CPU 使用率,观察是否收到告警通知。严禁在生产环境直接执行压力测试,可能导致业务抖动。
3. 检查告警历史:在“告警管理”->“告警历史”中,查看是否有策略触发的记录,确认通知渠道是否通畅。
常见坑
1. 网络不通:若实例位于私有网络且未配置 NAT 网关或代理,插件可能无法连接监控服务端,导致数据断报。需确保安全组和网络 ACL 放行相关域名。
2. 指标选错:基础监控和插件监控的指标名称可能不同,配置告警时请确认选择了插件上报的指标,否则可能无法触发。
3. 通知渠道未验证:创建了策略但未绑定有效的通知模板或接收人,导致告警触发后无人知晓。需在通知管理中预先验证联系人。
4. 权限不足:操作子账号可能缺乏云监控或 CVM 的操作权限,导致安装插件或创建策略失败,需检查 CAM 权限策略。
参考来源
- 腾讯云官方文档 - 云监控产品页面,URL: https://cloud.tencent.com/document/product/248
- 腾讯云官方文档 - 监控插件安装指南,可在云监控控制台帮助文档中查阅