华为云AI开发平台ModelArts如何训练作业保持运行中状态_云淘科技
由于需要训练作业处于“运行中”状态才能登录CloudShell,因此本文介绍如何使训练作业保持运行中状态,方便您快速通过CloudShell登录运行中的训练容器。
通过Sleep命令使训练作业保持运行
如果你使用的是预置框架:
在ModelArts控制台,选择训练管理>训练作业,选择预置框架,代码目录中新增sleep.py并将此脚本作为启动脚本。这样启动的作业将会持续运行60分钟。您可通过CloudShell进入容器进行调试。
sleep.py示例:
import os os.system('sleep 60m')
图1 预置框架启动方式
如果您使用的是自定义镜像
在创建训练作业时,选择自定义镜像,启动命令输入“sleep 60m”。这样启动的作业将会持续运行60分钟。您可通过CloudShell进入容器进行调试。
图2 自定义启动方式
出错的任务如何卡在运行中状态
创建训练作业时,启动命令末尾新增”|| sleep 5h”,并启动训练任务,例如下方的cmd为您的启动命令:
cmd || sleep 5h
若训练失败,则会执行sleep命令,此时可通过CloudShell登录容器镜像中调试。
在CloudShell中调试多节点训练作业时,需要在CloudShell中切换work0、work1来实现对不同节点下发启动命令,否则任务会处于等待其他节点的状态。
父主题: CloudShell
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家