华为云AI开发平台ModelArts日志提示“cuda runtime error (10) : invalid device ordinal at xxx”_云淘科技

问题现象

训练作业失败,日志报出如下错误:

图1 错误日志

原因分析

可以从以下角度排查:

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如”tensor.to(device=”cuda:7″)”,将张量搬到了7号GPU卡上,超过了实际可用的ID号。
如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。

处理方法

建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。
如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。

建议与总结

在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。

直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。

父主题: GPU相关问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家