华为云AI开发平台ModelArtsCES服务监控方案_云淘科技
场景描述
本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。
裸金属服务器监控介绍
监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20.04。
监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NVIDIA驱动后,可以自动采集GPU的如下指标:
指标英文名 |
指标中文名 |
说明 |
单位 |
维度 |
---|---|---|---|---|
gpu_status |
gpu健康状态。 |
BMS上GPU健康状态,是一个综合指标,0代表健康,1代表亚健康,2代表故障。 |
– |
instance_id,gpu |
gpu_utilization |
gpu使用率。 |
该GPU的算力使用率。 |
% |
instance_id,gpu |
memory_utilization |
显存使用率。 |
该GPU的显存使用率。 |
% |
instance_id,gpu |
gpu_performance |
gpu性能状态。 |
该GPU的性能状态。 |
– |
instance_id,gpu |
encoder_utilization |
编码使用率。 |
该GPU的编码能力使用率。 |
% |
instance_id,gpu |
decoder_utilization |
解码使用率。 |
该GPU的解码能力使用率。 |
% |
instance_id,gpu |
volatile_correctable |
短期可纠正ECC错误数量。 |
该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 |
个 |
instance_id,gpu |
volatile_uncorrectable |
短期不可纠正ECC错误数量。 |
该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 |
个 |
instance_id,gpu |
aggregate_correctable |
累计可纠正ECC错误数量。 |
该GPU累计的可纠正ECC错误数量。 |
个 |
instance_id,gpu |
aggregate_uncorrectable |
累计不可纠正ECC错误数量。 |
该GPU累计的不可纠正ECC错误数量。 |
个 |
instance_id,gpu |
retired_page_single_bit |
retired page single bit错误数量。 |
retired page single bit 错误数量,表示当前卡隔离的单比特页数。 |
个 |
instance_id,gpu |
retired_page_double_bit |
retired page double bit错误数量。 |
retired page double bit 错误数量,表示当前卡隔离的双比特页的数量。 |
个 |
instance_id,gpu |
监控插件安装步骤
当前账户需要给CES授权委托,请参考创建用户并授权使用云监控服务。
当前还不支持在CES界面直接一键安装监控,需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。
cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh
安装成功的标志如下:
图1 安装成功提示
在CES界面查看具体的监控项,GPU类的监控项必须在主机安装NVIDIA驱动后才会有相关指标。
图2 监控界面
至此,监控插件已经安装完成,相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。
父主题: 监控
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家