华为云AI开发平台ModelArtsGPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3_云淘科技

场景描述

本文介绍如何配置NVIDIA驱动、CUDA和FabricManager, 并安装PyTorch2.0,最后验证是否正常运行。

服务器信息: GPU Ant8裸金属服务器

操作系统:Ubuntu 20.04 server 64bit
选择安装环境相关版本: GPU驱动版本为470.182.03、CUDA版本为11.3.0

1、GPU环境安装指南

安装NVIDIA驱动。

wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run

安装CUDA。

不能选择Driver, 否则会覆盖已安装的NVIDIA驱动。

wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent

安装nvidia-fabricmanager。

Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

fabricmanager版本一定要和nvidia驱动版本必须保持一致。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-470_470.182.03-1_amd64.deb
 sudo dpkg -i ./nvidia-fabricmanager-470_470.182.03-1_amd64.deb

验证fabricmanager安装结果。

验证驱动安装结果、启动fabricmanager服务并查看状态。

nvidia-smi -pm 1
nvidia-smi
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager

汇总安装脚本。

在GPU Ant8型实例中, 使用bash一键执行如下脚本,实现快速安装GPU环境。

wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run --silent --no-questions

wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent

version=470.182.03
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

2、pytorch2.0安装和CUDA验证指南

PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

miniconda安装并创建alpha环境。

wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
export PATH=/home/miniconda/bin:$PATH
conda create --quiet --yes -n alpha python=3.10

安装pytorch2.0并验证cuda状态。

在alpha环境下安装torch2.0, 使用清华PIP源完成。

source activate alpha
pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
python

验证torch与cuda的安装状态,输出为True即为正常。

import torch
print(torch.cuda.is_available())

父主题: GPU裸金属服务器环境配置

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家