华为云服务器GPU驱动异常怎么办?_云淘科技
问题描述
在GPU实例中,执行以下命令查看GPU使用情况,提示系统无法执行指定的程序、或文件路径不存在。
nvidia-smi
回显信息如下所示:
-bash: /bin/nvidia-smi: No such file or directory
或
nvidia-smi: command not found
可能原因
云服务器驱动异常、没有安装驱动或者驱动被卸载。
处理方法
如果未安装GPU驱动,请重新安装GPU驱动。
操作指导请参考:安装GPU驱动
如果已安装驱动,但是驱动被卸载。
执行history,查看是否执行过卸载操作。
进入/var/log目录,查看是否有nvidia-uninstall.log日志,如果有说明GPU驱动已被卸载,请重新安装GPU驱动。
如果已安装驱动,但是驱动状态异常。
卸载驱动。
方法1:执行nvidia-uninstall命令,卸载驱动。
如果提示命令不存在可以执行 查询云服务器安装的驱动版本:whereis n…卸载驱动。
方法2:查询云服务器安装的驱动版本:whereis nvidia
图1 查询安装的驱动版本
根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。
以驱动版本nvidia-396.44为例,执行sh NVIDIA-Linux-x86_64-396.44.run –uninstall,卸载驱动
重装驱动。
操作指导请参考:安装GPU驱动
父主题: GPU驱动故障
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家