华为云AI开发平台ModelArts自定义镜像训练作业失败定位思路_云淘科技
问题现象
使用自定义镜像训练作业时,训练失败。
定位思路
确定镜像来源
a. 确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像,推荐用户使用ModelArts的基础镜像构建自定义镜像,具体请参见使用ModelArts的基础镜像构建新的训练镜像。
b. 确认该镜像是否是新版训练的基础镜像,原旧版训练的镜像无法直接在新版训练上使用。
c. 如镜像来源于第三方,设法找到自定义镜像的制作者咨询,制作者一般对镜像如何使用更加了解。
确定自定义镜像大小
推荐自定义镜像小于30GB,过大的镜像会导致作业创建过慢或者创建失败。
确定错误类型
提示找不到文件等错误,请参见训练作业日志中提示“No such file or directory”。
提示找不到包等错误,请参见训练作业日志中提示“No module named .*”。
Ascend启动脚本和初始化脚本问题。
确认相关脚本是否来源于官方文档并且是否严格按照官方文档使用。比如确认脚本名称是否正常、脚本路径是否正常。具体请参见示例:从 0 到 1 制作自定义镜像并用于训练(MindSpore+Ascend)。
驱动版本与底层驱动不兼容
当对自定义镜像的驱动进行升级时,请确定底层驱动是否兼容。当前支持哪种驱动版本,请从训练基础镜像列表中获取。
文件权限不足
该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件:
RUN if id -u ma-user > /dev/null 2>&1 ; \ then echo 'MA 用户已存在' ; \ else echo 'MA 用户不存在' && \ groupadd ma-group -g 1000 && \ useradd -d /home/ma-user -m -u 1000 -g 1000 -s /bin/bash ma-user ; fi && \ chmod 770 /home/ma-user && \ chmod 770 /root && \ usermod -a -G root ma-user
其他现象,可以在已有的训练故障案例查找。
建议与总结
用户使用自定义镜像训练作业时,建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。
父主题: 使用自定义镜像训练模型(新版训练)
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家