华为云AI开发平台ModelArts日志提示“cuda runtime error (10) : invalid device ordinal at xxx”_云淘科技
问题现象
训练作业失败,日志报出如下错误:
图1 错误日志
原因分析
可以从以下角度排查:
请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如”tensor.to(device=”cuda:7″)”,将张量搬到了7号GPU卡上,超过了实际可用的ID号。
如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。
处理方法
建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。
如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: GPU相关问题
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家