华为云AI开发平台ModelArts使用旧版自定义镜像创建训练作业,找不到启动文件_云淘科技

问题现象

使用旧版训练的自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。

原因分析

根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。

处理方法

需要排查执行命令的启动文件目录是否正确,具体操作如下:

在ModelArts管理控制台,使用训练的自定义镜像创建训练作业时,“算法来源”选择“自定义”页签。

若训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”,创建作业时配置代码目录为“/bucket-name/app/code/”。

代码目录配置完成后,执行如下命令,那么“run_train.sh”将选中的“code”文件夹下载到旧版训练容器的“/home/work/user-job-dir”目录中。

bash /home/work/run_train.sh  #旧版训练命令,run_train.sh训练启动引导脚本,打包在ModelArts提供的基础镜像中。

运行命令就可以设置为:

bash /home/work/run_train.sh python /home/work/user-job-dir/code/train.py {python_file_parameter}  #旧版训练

父主题: 训练作业运行失败

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家