华为云AI开发平台ModelArtsGPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML_云淘科技

问题现象

华为云裸金属服务器,NVIDIA驱动卸载后重新安装。

(1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本

(2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library version mismatch

处理方法

执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下:

nvidia_uvm            634880  8
nvidia_drm             53248  0
nvidia_modeset        790528  1 nvidia_drm
nvidia              12312576  86 nvidia_modeset,nvidia_uvm

卸载nvidia相关模块

sudo rmmod nvidia_drm
sudo rmmod nvidia_modeset
sudo rmmod nvidia_uvm

最后卸载nvidia

sudo rmmod nvidia

如果遇到“rmmod: ERROR: Module nvidia is in use”,执行以下命令:

sudo lsof /dev/nvidia*

并再次验证:

lsmod | grep nvidia

再次执行“nvidia-smi”,显示成功,且是最新安装的NVIDIA驱动。

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家