华为云AI开发平台ModelArtsGPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3_云淘科技
场景描述
本文介绍如何配置NVIDIA驱动、CUDA和FabricManager, 并安装PyTorch2.0,最后验证是否正常运行。
服务器信息: GPU Ant8裸金属服务器
操作系统:Ubuntu 20.04 server 64bit
选择安装环境相关版本: GPU驱动版本为470.182.03、CUDA版本为11.3.0
1、GPU环境安装指南
安装NVIDIA驱动。
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run chmod +x NVIDIA-Linux-x86_64-470.182.03.run ./NVIDIA-Linux-x86_64-470.182.03.run
安装CUDA。
不能选择Driver, 否则会覆盖已安装的NVIDIA驱动。
wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run chmod +x cuda_11.3.1_465.19.01_linux.run ./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent
安装nvidia-fabricmanager。
Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。
fabricmanager版本一定要和nvidia驱动版本必须保持一致。
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-470_470.182.03-1_amd64.deb sudo dpkg -i ./nvidia-fabricmanager-470_470.182.03-1_amd64.deb
验证fabricmanager安装结果。
验证驱动安装结果、启动fabricmanager服务并查看状态。
nvidia-smi -pm 1 nvidia-smi systemctl enable nvidia-fabricmanager systemctl start nvidia-fabricmanager systemctl status nvidia-fabricmanager
汇总安装脚本。
在GPU Ant8型实例中, 使用bash一键执行如下脚本,实现快速安装GPU环境。
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run chmod +x NVIDIA-Linux-x86_64-470.182.03.run ./NVIDIA-Linux-x86_64-470.182.03.run --silent --no-questions wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run chmod +x cuda_11.3.1_465.19.01_linux.run ./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent version=470.182.03 main_version=$(echo $version | awk -F '.' '{print $1}') apt-get update apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*
2、pytorch2.0安装和CUDA验证指南
PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。
miniconda安装并创建alpha环境。
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda export PATH=/home/miniconda/bin:$PATH conda create --quiet --yes -n alpha python=3.10
安装pytorch2.0并验证cuda状态。
在alpha环境下安装torch2.0, 使用清华PIP源完成。
source activate alpha pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple python
验证torch与cuda的安装状态,输出为True即为正常。
import torch print(torch.cuda.is_available())
父主题: GPU裸金属服务器环境配置
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家