华为云服务器弹性云服务器支持的操作系统监控指标(安装Agent)_云淘科技
功能说明
通过在弹性云服务器中安装Agent插件,可以为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了弹性云服务器上报云监控的操作系统监控指标。
操作系统监控目前支持的监控指标有:CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项。
安装Agent后,对于不同的操作系统、不同的弹性云服务器类型,您可以查看不同类型的操作系统监控指标。指标采集周期是1分钟。
命名空间
AGT.ECS
操作系统监控指标:CPU
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
cpu_usage |
(Agent) CPU使用率 |
该指标用于统计测量对象当前CPU使用率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_idle |
(Agent) CPU空闲时间占比 |
该指标用于统计测量对象当前CPU空闲时间占比。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_user |
(Agent) 用户空间CPU使用率 |
该指标用于统计测量对象当前用户空间占用CPU使用率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s) us值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_system |
(Agent) 内核空间CPU使用率 |
该指标用于统计测量对象当前内核空间占用CPU使用率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。用户可以通过top命令查看 %Cpu(s) sy值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_other |
(Agent) 其他CPU使用率 |
该指标用于统计测量对象其他占用CPU使用率。 单位:百分比 采集方式(Linux):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_nice |
(Agent) Nice进程CPU使用率 |
该指标用于统计测量对象当前Nice进程CPU使用率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_iowait |
(Agent) iowait状态占比 |
该指标用于统计测量对象当前iowait状态占用CPU的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。用户可以通过top命令查看 %Cpu(s) wa值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_irq |
(Agent) CPU中断时间占比 |
该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。用户可以通过top命令查看 %Cpu(s) hi值。 |
0-100% |
云服务器 |
1分钟 |
cpu_usage_softirq |
(Agent) CPU软中断时间占比 |
该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。用户可以通过top命令查看 %Cpu(s) si值。 |
0-100% |
云服务器 |
1分钟 |
操作系统监控指标:CPU负载
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
load_average1 |
(Agent) 1分钟平均负载 |
该指标用于统计测量对象过去1分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。 |
≥0 |
云服务器 |
1分钟 |
load_average5 |
(Agent) 5分钟平均负载 |
该指标用于统计测量对象过去5分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。 |
≥0 |
云服务器 |
1分钟 |
load_average15 |
(Agent) 15分钟平均负载 |
该指标用于统计测量对象过去15分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。 |
≥0 |
云服务器 |
1分钟 |
Windows系统暂不支持CPU负载指标。
操作系统监控指标:内存
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
mem_available |
(Agent) 可用内存 |
该指标用于统计测量对象的可用内存。 单位:GB 采集方式(Linux):通过/proc/meminfo文件获取, 若/proc/meminfo中显示MemAvailable,则直接可得 采集方式(Windows):计算方法为(内存总量-已用内存量)。通过WindowsAPI GlobalMemoryStatusEx获取。 |
≥0 GB |
云服务器 |
1分钟 |
mem_usedPercent |
(Agent) 内存使用率 |
该指标用于统计测量对象的内存使用率。 单位:百分比 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。 |
0-100% |
云服务器 |
1分钟 |
mem_free |
(Agent) 空闲内存量 |
该指标用于统计测量对象的空闲内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。 |
≥0 GB |
云服务器 |
1分钟 |
mem_buffers |
(Agent) Buffers占用量 |
该指标用于统计测量对象的Buffers内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。 |
≥0 GB |
云服务器 |
1分钟 |
mem_cached |
(Agent) Cache占用量 |
该指标用于统计测量对象Cache内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。 |
≥0 GB |
云服务器 |
1分钟 |
total_open_files |
(Agent) 文件句柄总数 |
该指标用于统计测量对象的所有进程使用的句柄总和。 单位:个 采集方式(Linux):通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。 |
≥0 |
云服务器 |
1分钟 |
操作系统监控指标:磁盘
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_free |
(Agent) 磁盘剩余存储量 |
该指标用于统计测量对象磁盘的剩余存储空间。 单位:GB 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
≥0 GB |
云服务器 – 挂载点 |
1分钟 |
disk_total |
(Agent) 磁盘存储总量 |
该指标用于统计测量对象磁盘存储总量。 单位:GB 采集方式(Linux):执行df -h命令,查看Size列数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
≥0 GB |
云服务器 – 挂载点 |
1分钟 |
disk_used |
(Agent) 磁盘已用存量 |
该指标用于统计测量对象磁盘的已用存储空间。 单位:GB 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
≥0 GB |
云服务器 – 挂载点 |
1分钟 |
disk_usedPercent |
(Agent) 磁盘使用率 |
该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。 单位:百分比 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
0-100% |
云服务器 – 挂载点 |
1分钟 |
操作系统监控指标:磁盘I/O
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_agt_read_bytes_rate |
(Agent) 磁盘读速率 |
该指标用于统计每秒从测量对象读出数据量。 单位:Byte/s 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 |
≥ 0 Byte/s |
云服务器 – 磁盘 |
1分钟 |
disk_agt_read_requests_rate |
(Agent) 磁盘读操作速率 |
该指标用于统计每秒从测量对象读取数据的请求次数。 单位:请求/秒 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 |
≥ 0 请求/秒 |
云服务器 – 磁盘 |
1分钟 |
disk_agt_write_bytes_rate |
(Agent) 磁盘写速率 |
该指标用于统计每秒写到测量对象的数据量。 单位:Byte/s 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 |
≥ 0 Byte/s |
云服务器 – 磁盘 |
1分钟 |
disk_agt_write_requests_rate |
(Agent) 磁盘写操作速率 |
该指标用于统计每秒向测量对象写数据的请求次数。 单位:请求/秒 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 |
≥ 0 请求/秒 |
云服务器 – 磁盘 |
1分钟 |
disk_readTime |
(Agent) 读操作平均耗时 |
该指标用于统计测量对象磁盘读操作平均耗时。 单位:ms/Count 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 ms/Count |
云服务器 – 磁盘 |
1分钟 |
disk_writeTime |
(Agent) 写操作平均耗时 |
该指标用于统计测量对象磁盘写操作平均耗时。 单位:ms/Count 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 ms/Count |
云服务器 – 磁盘 |
1分钟 |
disk_ioUtils |
(Agent) 磁盘I/O使用率 |
该指标用于统计测量对象磁盘I/O使用率。 单位:百分比 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
0-100% |
云服务器 – 磁盘 |
1分钟 |
disk_queue_length |
(Agent) 平均队列长度 |
该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量 单位:个 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 |
云服务器 – 磁盘 |
1分钟 |
disk_write_bytes_per_operation |
(Agent) 平均写操作大小 |
该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。 单位:Byte/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 Byte/op |
云服务器 – 磁盘 |
1分钟 |
disk_read_bytes_per_operation |
(Agent) 平均读操作大小 |
该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。 单位:Byte/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 Byte/op |
云服务器 – 磁盘 |
1分钟 |
disk_io_svctm |
(Agent) 平均I/O服务时长 |
该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。 单位:ms/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 |
≥ 0 ms/op |
云服务器 – 磁盘 |
1分钟 |
操作系统监控指标:文件系统
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_fs_rwstate |
(Agent) 文件系统读写状态 |
该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。 采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。 |
0:可读写 |
云服务器 – 挂载点 |
1分钟 |
disk_inodesTotal |
(Agent) inode空间大小 |
该指标用于统计测量对象当前磁盘的inode空间量。 采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
≥ 0 |
云服务器 – 挂载点 |
1分钟 |
disk_inodesUsed |
(Agent) inode已使用空间 |
该指标用于统计测量对象当前磁盘已使用的inode空间量。 采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
≥ 0 |
云服务器 – 挂载点 |
1分钟 |
disk_inodesUsedPercent |
(Agent) inode已使用占比 |
该指标用于统计测量对象当前磁盘已使用的inode占比。 单位:百分比 采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 |
0-100% |
云服务器 – 挂载点 |
1分钟 |
Windows系统暂不支持文件系统类监控指标。
操作系统监控指标:网卡
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
net_bitRecv |
(Agent) 出网带宽 |
该指标用于统计测量对象网卡每秒发送的比特数。 单位:bit/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
≥ 0 bit/s |
云服务器 |
1分钟 |
net_bitSent |
(Agent) 入网带宽 |
该指标用于统计测量对象网卡每秒接收的比特数。 单位:bit/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
≥ 0 bit/s |
云服务器 |
1分钟 |
net_packetRecv |
(Agent) 网卡包接收速率 |
该指标用于统计测量对象网卡每秒接收的数据包数。 单位:Counts/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
≥ 0 Counts/s |
云服务器 |
1分钟 |
net_packetSent |
(Agent) 网卡包发送速率 |
该指标用于统计测量对象网卡每秒发送的数据包数。 单位:Counts/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
≥ 0 Counts/s |
云服务器 |
1分钟 |
net_errin |
(Agent) 接收误包率 |
该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
0-100% |
云服务器 |
1分钟 |
net_errout |
(Agent) 发送误包率 |
该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
0-100% |
云服务器 |
1分钟 |
net_dropin |
(Agent) 接收丢包率 |
该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
0-100% |
云服务器 |
1分钟 |
net_dropout |
(Agent) 发送丢包率 |
该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 |
0-100% |
云服务器 |
1分钟 |
操作系统监控指标:NTP
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
ntp_offset |
(Agent) NTP偏移量 |
该指标用于统计测量对象当前NTP偏移量。 单位:ms 采集方式(Linux):执行nvidia-smi命令,查看Perf列数据。 |
≥ 0 ms |
云服务器 |
1分钟 |
操作系统监控指标:TCP
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
net_tcp_total |
(Agent) TCP TOTAL |
该指标用于统计测量对象所有状态的TCP连接数总和。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_established |
(Agent) TCP ESTABLISHED |
该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_sys_sent |
(Agent) TCP SYS_SENT |
该指标用于统计测量对象处于请求连接状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_sys_recv |
(Agent) TCP SYS_RECV |
该指标用于统计测量对象服务器端收到的请求连接的TCP数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_fin_wait1 |
(Agent) TCP FIN_WAIT1 |
该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_fin_wait2 |
(Agent) TCP FIN_WAIT2 |
该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_close |
(Agent) TCP CLOSE |
该指标用于统计测量对象关闭的或未打开的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_last_ack |
(Agent) TCP LAST_ACK |
该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_listen |
(Agent) TCP LISTEN |
该指标用于统计测量对象处于LISTEN状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_closing |
(Agent) TCP CLOSING |
该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 |
≥ 0 |
云服务器 |
1分钟 |
net_tcp_retrans |
(Agent) TCP重传率 |
该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。 单位:百分比 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。 |
0-100% |
云服务器 |
1分钟 |
操作系统监控指标:GPU
指标 |
指标名称 |
指标含义 |
取值范围 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|
gpu_status |
gpu健康状态 |
该指标用于统计虚拟机上GPU健康状态,是一个综合指标。 该指标无单位。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
0:代表健康 |
云服务器 |
1分钟 |
gpu_usage_encoder |
编码使用率 |
该指标用于统计该GPU的编码能力使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
0-100% |
云服务器 |
1分钟 |
gpu_usage_decoder |
解码使用率 |
该指标用于统计该GPU的解码能力使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
0-100% |
云服务器 |
1分钟 |
gpu_volatile_correctable |
可纠正ECC错误数量 |
该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 单位:个。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_volatile_uncorrectable |
不可纠正ECC错误数量 |
该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_aggregate_correctable |
累计可纠正ECC错误数量 |
该指标用于统计该GPU累计的可纠正ECC错误数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_aggregate_uncorrectable |
累计不可纠正ECC错误数量 |
该指标用于统计该GPU累计的不可纠正ECC错误数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_retired_page_single_bit |
retired page single bit错误数量 |
该指标用于统计该GPU当前卡隔离的单比特页的数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_retired_page_double_bit |
retired page double bit错误数量 |
该指标用于统计该GPU当前卡隔离的双比特页的数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
≥ 0 |
云服务器 |
1分钟 |
gpu_performance_state |
(Agent) 性能状态 |
该指标用于统计测量对象当前的GPU性能状态。 该指标无单位。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
P0-P15、P32, P0:表示最大性能状态 |
云服务器 – GPU |
1分钟 |
gpu_usage_mem |
(Agent) 显存使用率 |
该指标用于统计测量对象当前的显存使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
0-100% |
云服务器 – GPU |
1分钟 |
gpu_usage_gpu |
(Agent) GPU使用率 |
该指标用于统计测量对象当前的GPU使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 |
0-100% |
云服务器 – GPU |
1分钟 |
维度
维度 |
Key |
Value |
---|---|---|
云服务器 |
instance_id |
云服务器ID。 |
云服务器 – 磁盘 |
disk |
云服务器磁盘。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 |
云服务器 – 挂载点 |
mount_point |
云服务器磁盘的挂载点。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 |
云服务器 – GPU |
gpu |
GPU类型云服务器中显卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 |
父主题: 监控
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家