华为云AI开发平台ModelArtsGPU A系列裸金属服务器无法获取显卡问题解决方法_云淘科技

问题现象

在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下:

> torch.cuda.is_available()
/usr/local/lib/python3.8/dist-packages/torch/cuda/__init__.py:107: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:109.)
  return torch._C._cuda_getDeviceCount() > 0
False

原因分析

Error 802原因为缺少nvidia-fabricmanager,可能由于以下原因导致nvidia-fabricmanager.servcie不工作:

可能系统资源不足、如内存不足、内存泄露。
硬件故障、如IB网络或者GPU互联设备故障等。
没安装nvidia-fabricmanager组件或被误卸载。

处理方法

若未安装nvidia-fabricmanager, 则需安装改组件,请参考GPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3。
若已安装nvidia-fabricmanager, 运行以下命令重启nvidia-fabricmanager.service。

systemctl restart  nvidia-fabricmanager.service

建议您进一步定位出nvidia-fabricmanager不工作原因,避免该问题再次发生。

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家