华为云AI开发平台ModelArts查看训练作业事件_云淘科技

训练作业的(从用户可看见训练任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。

方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示:

训练作业创建成功
训练作业创建失败报错:
准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时
训练作业已排队,正在等待资源分配
训练作业排队失败
训练作业开始运行
训练作业运行成功
训练作业运行失败
训练作业被抢占
系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理
训练作业已重启
训练作业已被手动终止
训练作业已被终止(最大运行时长:1h)
训练作业已被终止(最大运行时长:3h)
训练作业已被手动删除
计费信息同步结束
[worker-0] 训练环境预检中
[worker-0] [耗时: 秒] 预检完成
[worker-0] [耗时: 秒] 检查失败。发现异常:
[worker-0] [耗时: 秒] 检查失败。发现错误:
[worker-0] 训练代码下载中
[worker-0] [耗时: 秒] 训练代码下载完成
[worker-0] [耗时: 秒] 训练代码下载失败,失败原因:
[worker-0] 训练输入下载中
[worker-0] [耗时: 秒] 训练输入(参数名称:)下载完成
[worker-0] [耗时: 秒] 训练输入(参数名称:)下载失败,失败原因:
[worker-0] 正在安装Python依赖包,导入文件:
[worker-0] [耗时: 秒] Python依赖包安装完成,导入文件:
[worker-0] 训练任务开始运行
[worker-0] 训练任务运行结束,退出码
[worker-0] 训练输入上传中
[worker-0] [耗时: 秒] 训练输出(参数名称:)上传完成

训练运行到结束的过程中,关键事件支持手动/自动刷新。

查看操作

在ModelArts管理控制台的左侧导航栏中选择“训练管理 > 训练作业”,在训练作业列表中,您可以单击作业名称,进入训练作业详情页面。
在训练作业详情页面,单击“查看事件”,查看事件信息。

图1 查看事件信息

父主题: 完成一次训练

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家