场景描述 本文指导如何在V100裸金属服务器上安装Docker环境(服务器系统需为Ubuntu18.04或Ubuntu20.04)。 操作步骤 NVIDIA驱动安装。 wget https://us.download.nvidia.com/…
场景描述 本文介绍如何华为云裸金属服务器中安装NVIDIA和CUDA驱动(以Ant8规格为例)。 1. 安装NVIDIA驱动 打开NVIDIA官方网站。 根据Ant8的详细信息和您所需的cuda版本选择驱动 图1 驱动选择 选择后会自动出现…
场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu2…
场景描述 本文旨在指导完成GPU Ant8裸金属服务器装机和nccl-test测试。装机软件预览如下: 表1 装机软件 软件类型 版本详情 预置操作系统 Ubuntu 20.04 server 64bit nvidia-driver 515…
场景描述 本文旨在介绍裸金属服务器支持IPV6所需配置。裸金属服务器支持IPV6需要依赖规格、镜像、子网、安全组,对这些依赖项设置完成后,即可以在该裸金属服务上使用IPV6进行网络通信。 操作步骤 确认裸金属服务器规格支持IPV6。需要确保…
场景描述 Server创建后,需要进行网络配置后,才可进行SSH访问,本章节介绍网络配置步骤。一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server资源均可以通过该EIP进行公网…
前提条件 已完成资源配额提升、基础权限配置、虚拟私有云创建、密钥对创建等工作,请见准备工作。 背景信息 当前支持的裸金属镜像请请见镜像介绍,在创建DevServer实例时,根据所需镜像选择对应的规格。 操作步骤 登录ModelArts管理控…
Step1:资源配额提升 DevServer所需资源可能会超出华为云默认提供的资源(如ECS、EIP、SFS),因此需要申请扩大配额,请联系客户经理确认资源配额提升方案。 登录华为云管理控制台。 在顶部导航栏单击“资源 > 我的配额”…
场景描述 本案例介绍如何在Snt9B上进行分布式训练任务。lite资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。 操…
场景描述 本案例介绍如何在Snt9B上使用deployment部署在线在推理服务。 操作步骤 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn…