操作场景 随着业务数据的增加,原来申请的数据库磁盘容量可能会不足,需要为云数据库RDS实例进行扩容。实例扩容的同时备份空间也会随之扩大。 1TB以下磁盘空间使用率达到95%,或1TB及以上磁盘空间使用量剩余50GB,实例将显示“磁盘空间满”…
场景描述 本文将介绍在GPU Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。 背景信息 Megatron-Deep…
前提条件 专属资源池未适配1.23以上的CCE版本,故在本指导适用于1.23版本CCE。 已购买资源,购买资源步骤请参考集群资源购买。 操作步骤 Step 1:登录节点 Step 2:配置kubectl工具 Step 3:准备业务基础镜像 …
问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本, 出现SSH链接故障无法访问。 原因分析 查看yum命令历史,发现执行了“…
场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务器GPU间是走NVLI…
场景描述 华为云BMS裸金属服务器在停机状态可以切换操作系统,本文介绍以下两种切换操作系统的方式: 使用BMS Go SDK的方式切换操作系统 使用Python封装API的方式切换操作系统 切换操作系统需满足以下条件: 当前裸金属服务器状态…
问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi D…
问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: FAQ 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速解决?…
场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金属服…
场景描述 本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和…