华为云AI开发平台ModelArts什么是训练作业日志_云淘科技

训练日志定义

训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。

训练日志包括普通训练日志和Ascend相关日志。

普通日志说明:当使用CPU或GPU资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt 安装日志和ModelArts平台日志。
Ascend场景日志说明:使用Ascend资源训练时会产生device日志、plog日志、proc log单卡训练日志、MindSpore日志、普通日志。

图1 ModelArts训练日志

只有MindSpore+Ascend训练场景下会产生单独的MindSpore日志。其他AI引擎的日志或MindSpore使用GPU训练的日志都包含在普通日志中,无法区分。

训练日志的时效性

从日志产生的时效性上可以分为以下3种情况:

实时日志:训练作业实时运行时产生,在ModelArts训练作业详情页面上可以查看。
历史日志:训练作业结束后,也可以在ModelArts训练作业详情页面上可以查看到,ModelArts系统自动保存30天。
永久日志:转存到用户OBS桶中的日志,在创建训练作业时,用户可以自己设置OBS转存路径。CPU或GPU训练场景下,永久保存日志开关需要用户手动开启。

图2 开启永久保存日志开关

实时日志和历史日志都是标准日志输出,内容上没有区别。CPU和GPU训练产生的实时日志和历史日志、永久日志都是一样的内容。Ascend训练场景下,永久日志中会包含Ascend日志,这部分日志内容在ModelArts界面上看不到。

相关章节

在ModelArts训练作业详情页,训练日志窗口提供了日志预览、日志下载、日志中搜索关键字能力,具体请参见如何查看训练作业日志。
ModelArts还提供了训练作业失败定位与分析功能,方便用户通过日志快速定位并解决训练作业问题,具体请参见如何通过训练日志定位问题。

父主题: 查看训练作业日志

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家