华为云AI开发平台ModelArts训练模式选择_云淘科技
针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。
在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。普通模式的调测信息可参考查看训练日志。
针对于新增的两种模式,推荐以下两种场景使用:
高性能模式:最小化调测信息,最大程度地提升运行速度,适合于网络稳定并追求高性能的场景。
故障诊断模式:收集更多的信息用于定位,适合于执行出现问题需要收集故障信息进行定位的场景。此模式提供故障诊断,用户可以根据实际需求选择诊断类别。
图1 模式选择
各模式获取的调测信息见下表。
调测信息 |
普通模式 |
高性能模式 |
故障诊断模式 |
说明 |
---|---|---|---|---|
MindSpore框架日志级别 |
Info级别 |
error级别 |
Info级别 |
MindSpore框架运行时日志。 |
RDR(Running Data Recorder) |
关闭 |
关闭 |
开启 |
出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。 RDR详细的介绍请参考MindSpore官网说明。 |
analyze_fail.dat |
默认提供,上传至训练作业日志路径中 |
图编译失败自动导出故障信息,用于infer过程分析。 |
||
dump数据 |
默认提供,上传至训练作业日志路径中 |
后端执行期异常触发dump数据。 |
在故障诊断模式下,开启故障诊断功能后,支持用户查看以下故障诊断数据。以下数据存储至训练日志路径的OBS目录下。
故障诊断模式的训练输出日志文件说明:
{obs-log-path}/ modelarts-job-{job-id}-worker-{index}.log # 打屏日志(汇总) modelarts-job-{job-id}-proc-rank-{rank-id}-device-{device-id}.txt # 每个 device 的打屏日志 modelarts-job-{job-id}/ ascend/ npu_collect/rank_{id}/ # TFAdapter DUMP GRAPH 与 GE DUMP GRAPH 的输出路径,仅在使用TensorFlow框架时生成 process_log/rank_{id}/ # Plog 日志路径 msnpureport/{task-index}/ #msnpureport工具执行日志,用户无需关注 mindspore/ log/ # MindSpore 框架日志与 MindSpore 故障诊断数据
故障诊断分类 |
故障诊断内容 |
---|---|
CANN框架日志和故障诊断数据 |
HOST侧的INFO及INFO以上级别日志,包括HOST侧CANN软件桟日志、HOST侧驱动日志文件等。 |
MindSpore框架日志和故障诊断数据 |
MindSpore框架生成的日志,INFO及INFO以上级别日志。 |
RDR(Running Data Recorder)文件。 出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。 |
|
analyze_fail.dat,图编译失败自动导出故障信息,用于infer过程分析。 |
|
dump数据,后端执行期异常触发dump数据。 |
在创建训练作业页面,选择算法为MindSpore,资源类型为Ascend,可以开启故障诊断模式。
图2 选择算法
图3 选择资源类型
图4 开启故障诊断
父主题: 训练进阶
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家