场景描述 本案例介绍如何在Snt9B上使用deployment部署在线在推理服务。 操作步骤 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn…
场景描述 本案例介绍如何在Snt9B上进行分布式训练任务。lite资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。 操…
图1 DevServer资源开通流程图 表1 DevServer资源开通流程 阶段 任务 参考 准备工作 1、资源配额提升。 Step1:资源配额提升 2、创建RoCE网络。 Step2:创建RoCE网络 3、基础权限开通。 Step3:基…
场景描述 华为云BMS裸金属服务器在停机状态可以切换操作系统,本文介绍以下两种切换操作系统的方式: 使用BMS Go SDK的方式切换操作系统 使用Python封装API的方式切换操作系统 切换操作系统需满足以下条件: 当前裸金属服务器状态…
Step1:资源配额提升 DevServer所需资源可能会超出华为云默认提供的资源(如ECS、EIP、SFS),因此需要申请扩大配额,请联系客户经理确认资源配额提升方案。 登录华为云管理控制台。 在顶部导航栏单击“资源 > 我的配额”…
场景描述 本文旨在指导完成GPU Ant8裸金属服务器装机和nccl-test测试。装机软件预览如下: 表1 装机软件 软件类型 版本详情 预置操作系统 Ubuntu 20.04 server 64bit nvidia-driver 515…
前提条件 已完成资源配额提升、基础权限配置、虚拟私有云创建、密钥对创建等工作,请见准备工作。 背景信息 当前支持的裸金属镜像请请见镜像介绍,在创建DevServer实例时,根据所需镜像选择对应的规格。 操作步骤 登录ModelArts管理控…
场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务器GPU间是走NVLI…
场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu2…
问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本, 出现SSH链接故障无法访问。 原因分析 查看yum命令历史,发现执行了“…