华为云服务器GPU设备显示异常_云淘科技
问题描述
执行nvidia-smi查看GPU使用情况,显示如下:
单卡机器显示
No devices were found
多卡机器上显示卡数目不全
执行lspci | grep -i nvidia,显示卡数目正常。
处理方法
查看实例是否使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格)。
是,请参见T4 GPU设备显示异常进行处理。
否,请执行下一步。
查看系统日志“/var/log/message”,是否存在驱动相关报错。
如果出现“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。
图1 系统日志
执行以下命令,开启驱动持久化模式。
nvidia-smi -pm 1
执行以下命令,打开并编辑“/etc/rc.local”文件。
vim /etc/rc.local
配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。
按“Esc”,输入:wq保存并退出。
执行以下命令,添加启动权限。
chmod +x /etc/rc.d/rc.local
否,请执行下一步。
查看实例的Tesla驱动版本是否为510.xx.xx。
是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动。
否,请执行下一步。
请尝试重启云服务器,再执行nvidia-smi查看GPU使用情况,确认是否正常。
如果问题依然存在,请联系客服。
父主题: GPU驱动故障
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家