aim

用户可能需要查看不同时间段以来的监控数据,需要注意的是,根据显示时选择的不同时间段,统计数据的粒度也不同:

显示时间跨度 默认统计数据粒度 可选统计数据粒度
≤ 1 小时 1 分钟、5 分钟 1 分钟、5 分钟
≤ 24小时 5分钟 1分钟、5分钟、1小时
≤ 3天 1小时 1分钟、5分钟、1小时、1天
≤ 14天 1小时 1小时、1天
≤ 31天 1天 1小时、1天

基本概念

术语 定义
告警策略类型 策略类型用于标识策略分类,类型与云产品对应。例如:当您选择云服务器策略,即可自定义 CPU 使用率、磁盘使用率等指标告警
告警规则 告警规则对应具体监控指标。例如:云服务器策略类型会包含多条告警规则:磁盘使用率告警、ping 不可达告警、内存使用率告警等
策略类型与告警规则关系 策略类型包含多个告警规则,是一系列告警规则的集合。例如:云服务器策略包含磁盘使用率告警、ping 不可达告警、内存使用率告警等
告警策略组 告警策略组是一系列告警规则的集合。告警策略和项目、策略类型关联,每类策略类型每个项目最多创建 15 个告警策略组
默认策略组 每个项目下、每个策略类型有且仅有一个默认策略组,用户购买机器后系统将自动创建,默认策略组可以修改,不可删除。注:目前系统默认创建的告警策略,还需要用户为默认策略组绑定告警接收组后才可接收到默认告警策略发出的告警信息。

告警的状态

告警状态 说明
未恢复 没有被处理或正在被处理的告警。
恢复 已经恢复正常状态。
数据不足 产生告警的告警策略已被删除。云服务器从一个项目迁移至另一个项目。未安装或者卸载云监控控件,无数据上报。

重复告警默认逻辑:

告警产生后的24小时内,将按您设定的重复通知频率重复给您发送告警信息。

告警产生满24小时,将默认切换为1天通知1次的策略进行重复通知。

告警产生满72小时,发送最后一次告警信息,过后不再重复发送此条告警的告警信息。

名词解释

度量(Metric):设备度量的指标,如风力,温度。

度量值(Metric Value):度量指标对应的值,如转速:2000 转 ,温度:20℃。

标签(Tag):度量所属的设备或者设备系列,比如 国家、省份、城市、机房、IP 等。

标签值(Tag Value):标签对应的一类确定值,比如:国家=China,城市=Shanghai,机房=A ,IP=172.220.110.1。

时间序列(Time Series):一系列标签 + 一个度量组合产生的最小的采集点所产生的时序数据序点集称为个时序数据系列。如 **+上海+城区+编号为001的设备 + 温度。

时序数据(Time Series Data):基于稳定频率持续产生的一系列度量数据,如空气监测,每秒钟采集一个监测数据。

时序数据库 HiTSDB :英文全称为 High-Performance Time Series Database,高性能时序数据库,提供高效存取时序数据和统计分析功能的数据库管理系统。

时间精度:时间线数据的写入时间精度,秒,分钟,小时或者其他稳定时间频度。如:每秒一个温度数据的采集频度,5分钟一个负载数据的采集频度。

数据组(Data Group):如果需要完成同一个 Metric 不同设备之间数据对比查询,可以将不同 tag value 的数据分组展示。比如:将温度指标数据按照不同城市进行分组查询,类似于SQL :select temperature from xxx group by city where city in (shanghai, hangzhou)。

空间聚合(Space Aggregation):当同一个 Metric 的查询有多条时间线产生(多个指标采集设备),那么为了将空间的多维数据,展现为成同一条时间线 ,需要进行合并计算。如:当选定了某个城市某个城区的污染指数的时,通常将各个环境监测点的指标数据平均值作为最终区域的指标数据,这个计算过程就是空间聚合(Space Aggregation)。

降精度(Downsample):当查询的时间区间跨度比较长,数据时间精度比较细在满足业务需求的场景下为了提升查询效率会降低数据的查询展现精度,叫做降精度,比如将按秒采集一年的数据按照天别查询展现。

数据时效(Data’s Validity Period):数据时效是设置数据的实际有效期,超过有效期的数据会被自动过期释放。

异常检测:静态阈值,动态阈值,算法检测

异常预测:机器学习

告警收敛:告警关联,动态拓扑

精准告警:根因分析