先说结论:配置云监控报警规则属于标准运维动作,关键在于通知渠道畅通、阈值设定合理且监控插件状态正常。
- 适合:所有腾讯云 CVM 实例,尤其是承载核心业务的服务器。
- 先准备:确认已开通云监控服务,接收通知的微信、邮箱或手机号已完成验证,且实例已安装监控插件。
- 验收:创建完成后,建议在测试环境通过模拟负载触发报警,确认能收到通知消息。
配置报警规则步骤
该配置主要在控制台页面完成,无需登录实例执行命令。核心流程是进入云监控控制台,选择报警管理,新建规则并绑定 CVM 实例。
- 登录控制台:访问腾讯云官网,进入云监控控制台。
- 进入报警管理:在左侧导航栏找到“报警管理”或“告警配置”,点击“新建”。
- 选择监控对象:产品选择“云服务器(CVM)”,地域选择实例所在区域,实例选择具体需要监控的机器。
- 配置指标策略:指标名称选择"CPU 使用率”,条件通常设为“大于”。阈值建议:生产环境建议设为 80%,统计周期 1 分钟,连续周期 3 次(即持续 3 分钟超过阈值才报警,避免瞬时抖动误报)。
- 设置通知方式:选择已验证的通知渠道(微信、短信、邮件等),可配置接收人。
- 确认创建:检查规则名称和配置无误后,点击提交。
检查监控插件状态
若配置完成后无数据上报,可能是监控插件缺失或未运行。部分操作系统或老旧镜像可能未预装监控插件,需参考文档安装 Cloud Monitor 插件。
检查命令:登录 CVM 实例,执行以下命令检查进程:
ps -ef | grep barad_agent
或检查服务状态:
systemctl status qcloud-monitor
若无输出或状态异常,请前往腾讯云云监控文档查找对应操作系统的插件安装指南。
验证报警是否生效
规则创建后,状态通常显示为“生效中”。为了确认通知链路正常,可以进行测试。
⚠️ 风险提示:请勿直接在生产环境核心业务实例上执行高负载命令,可能导致业务抖动或中断。建议在测试环境验证,若必须在生产环境验证,请务必在业务低峰期并进行风险评估。
- 模拟负载:登录 CVM 实例,执行简单的 CPU 占用命令。例如使用 yes 命令:
或使用 stress 工具(需先安装):yes > /dev/null &stress `--cpu` 1 `--timeout` 60s - 观察通知:等待一个统计周期后,检查预留的手机、微信或邮箱是否收到报警消息。
- 查看历史记录:在云监控控制台的“报警历史”页面,查看是否有对应的触发记录。
- 停止负载:测试完成后,立即停止负载命令,避免影响正常业务。
或等待 stress 命令自动结束。killall yes
常见问题排查
- 通知渠道未验证:添加了手机号或邮箱但未完成验证码确认,导致报警发送失败。
- 统计周期误解:统计周期是指采集数据的频率,连续周期是指触发报警需要满足条件的次数。设置过短可能导致误报,过长则延迟发现。
- 实例选择范围:新建规则时未勾选具体实例,或选择了已释放的实例,导致规则未覆盖目标机器。
- 监控 Agent 缺失:部分操作系统或老旧镜像可能未预装监控插件,导致数据上报缺失,无法触发报警。
参考来源
- 腾讯云云监控产品页:https://cloud.tencent.com/product/monitor
- 腾讯云官方文档 - 云监控:https://cloud.tencent.com/document/product/248