华为云服务器GPU加速型实例安装GPU监控插件(Linux)_云淘科技
操作场景
通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU监控指标,请参见操作系统监控指标:GPU。
本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装GPU监控插件:
操作步骤(单台ECS安装)
操作步骤(多台ECS批量安装)
约束与限制
仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控。
类型 |
版本 |
---|---|
CentOS(64bit) |
7.6、7.9、8.2 |
Ubuntu(64bit) |
16.04、18.04、20.04 |
支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1。
前提条件
已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。
已配置委托,配置方法参考如何配置委托?。
已安装GPU驱动,未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。
如果您的弹性云服务器未安装GPU驱动,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。
安装GPU驱动需使用默认路径。
GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。
GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。
已安装lspci工具,未安装lspci工具的云服务器影响GPU掉卡事件的上报。
安装lspci工具的方法,请参见(可选)安装lspci工具。
确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
操作步骤(单台ECS安装)
本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍单台ECS安装GPU监控插件的操作指导。
使用root用户,远程登录弹性云服务器。
执行以下命令,为单台ECS安装GPU监控插件。
以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。
cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com
其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.5.6.1”是telescope版本号。
当显示如下内容,表示GPU监控插件安装成功。
图1 GPU监控插件安装成功
操作步骤(多台ECS批量安装)
本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍多台ECS批量安装GPU监控插件的操作指导。
批量安装的多台ECS需要归属于同一个VPC。
使用root用户,远程登录其中一台弹性云服务器。
执行以下命令,为这一台ECS安装GPU监控插件。
以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。
cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com
其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.5.6.1”是telescope版本号。
当GPU监控插件安装成功,且数据采集正常时,可以将此ECS作为跳板机,通过批量安装脚本依次为其他ECS批量安装GPU监控插件。
收集需要批量安装GPU监控插件的所有ECS的IP地址和root用户密码,以iplist.txt格式整理,并上传到ECS跳板机的/usr/local目录下。
iplist.txt格式为“IP地址,root用户密码”,每个记录一行。
示例如下所示(示例中abcd为root用户密码,请按实际值填写):
192.168.1.1,abcd 192.168.1.2,abcd
执行以下命令,为多台ECS批量安装GPU监控插件。
以“华北-北京四”为例,其余区域的批量安装脚本,请参见获取安装脚本。
cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com
其中,cn-north-4是RegoinID,0.1.5是uniagent版本号,2.5.6.1是telescope版本号。
当显示如下内容,表示GPU监控插件安装成功。
图2 GPU监控插件安装成功
获取安装脚本
您可以通过执行以下命令,获取CES监控Agent的安装脚本。
区域 |
安装脚本 |
---|---|
华北-北京一 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
华北-北京四 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
华北-乌兰察布一 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
华南-广州 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
华东-上海一 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
华东-上海二 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
西南-贵阳一 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
中国-香港 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
亚太-曼谷 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
亚太-新加坡 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
非洲-约翰内斯堡 |
单台ECS安装: cd /usr/local && curl -k -O https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r af-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com 多台ECS批量安装: cd /usr/local && curl -k -O https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r af-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com |
(可选)安装lspci工具
登录弹性云服务器。
更新镜像源,获取安装依赖。
wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh
更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?
执行以下命令,安装lspci工具。
CentOS系统:
yum install pciutils
Ubuntu系统:
apt install pciutils
执行以下命令,查看安装结果。
lspci -d 10de:
图3 安装结果
父主题: 监控
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家