华为云AI开发平台ModelArtsCES服务监控方案_云淘科技

12 月 05, 2023

84 0

本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案，可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。

监控概述请参考BMS官方文档。除文档所列支持的镜像之外，目前还支持Ubuntu20.04。

监控指标采样周期1分钟。当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NVIDIA驱动后，可以自动采集GPU的如下指标：

表1 指标列表
指标英文名	指标中文名	说明	单位	维度
gpu_status	gpu健康状态。	BMS上GPU健康状态，是一个综合指标，0代表健康，1代表亚健康，2代表故障。	–	instance_id，gpu
gpu_utilization	gpu使用率。	该GPU的算力使用率。	%	instance_id，gpu
memory_utilization	显存使用率。	该GPU的显存使用率。	%	instance_id，gpu
gpu_performance	gpu性能状态。	该GPU的性能状态。	–	instance_id，gpu
encoder_utilization	编码使用率。	该GPU的编码能力使用率。	%	instance_id，gpu
decoder_utilization	解码使用率。	该GPU的解码能力使用率。	%	instance_id，gpu
volatile_correctable	短期可纠正ECC错误数量。	该GPU重置以来可纠正的ECC错误数量，每次重置后归0。	个	instance_id，gpu
volatile_uncorrectable	短期不可纠正ECC错误数量。	该GPU重置以来不可纠正的ECC错误数量，每次重置后归0。	个	instance_id，gpu
aggregate_correctable	累计可纠正ECC错误数量。	该GPU累计的可纠正ECC错误数量。	个	instance_id，gpu
aggregate_uncorrectable	累计不可纠正ECC错误数量。	该GPU累计的不可纠正ECC错误数量。	个	instance_id，gpu
retired_page_single_bit	retired page single bit错误数量。	retired page single bit 错误数量，表示当前卡隔离的单比特页数。	个	instance_id，gpu
retired_page_double_bit	retired page double bit错误数量。	retired page double bit 错误数量，表示当前卡隔离的双比特页的数量。	个	instance_id，gpu

当前账户需要给CES授权委托，请参考创建用户并授权使用云监控服务。
当前还不支持在CES界面直接一键安装监控，需要登录到服务器上执行以下命令安装配置Agent。其它region的安装请参考单台主机下安装Agent。

cd /usr/local && curl -k -O https://obs.cn-north-4.myhuaweicloud.com/uniagent-cn-north-4/script/agent_install.sh && bash agent_install.sh

安装成功的标志如下：

图1 安装成功提示

在CES界面查看具体的监控项，GPU类的监控项必须在主机安装NVIDIA驱动后才会有相关指标。

图2 监控界面

至此，监控插件已经安装完成，相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。

父主题： 监控

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

分类