华为云AI开发平台ModelArts训练作业找不到GPU_云淘科技

问题现象

训练作业运行出现如下报错:

failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

原因分析

根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。

处理方法

根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU:

os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'

其中,0为服务器的GPU编号,可以为0, 1, 2, 3等,表明对程序可见的GPU编号。若未进行添加配置则该编号对应的GPU不可用。

父主题: GPU相关问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家