使用场景 允许用户使用ModelArts控制台提供的CloudShell登录运行中的训练容器。 约束限制 当前新旧版本的专属资源池均支持使用CloudShell,且训练作业必须处于“运行中”状态。 图1 创建训练作业时使用专属资源池 图2 …
另存为算法 当您需要修改训练作业的算法时,可以在训练作业详情页面右上角,单击“另存为算法”。 在“创建算法”页面中,会自动填充上一次训练作业的算法参数配置,您可以根据业务需求在原来算法配置基础上进行修改。 在AI Gallery中订阅的算法…
使用专属资源池(New)进行训练的作业,支持在创建训练作业时设置任务优先级,支持在作业排队过程中调整优先级。优先级取值为1~3,默认优先级为1,最高优先级为3。默认用户权限可选择优先级1和2,配置了”设置作业为高优先级̶…
背景信息 对于用户希望优化的超参,需在“超参”设置中定义,可以给定名称、类型、默认值、约束等,具体设置方法可以参考定义超参。 如果用户使用的AI引擎为pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x…
如果不再需要使用此训练任务,建议清除相关资源,避免产生不必要的费用。 在“训练作业”页面,“删除”运行结束的训练作业。您可以单击“操作”列的“删除”,在弹出的提示框中单击“确认”,删除对应的训练作业。 进入OBS,删除本示例使用的OBS桶及…
训练作业的(从用户可看见训练任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。 方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示…
ModelArts提供查找算法功能帮助用户快速查找算法。 操作一:按照名称、镜像、代码目录、描述、创建时间筛选的高级搜索。 操作二:单击右上角“刷新”图标,刷新算法列表。 操作三:自定义列功能设置。 图1 查找算法 图2 自定义列功能设置 …
使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。临终遗言是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基…
用户在训练模型过程中,存在因硬件故障而产生的训练失败场景。针对硬件故障场景,ModelArts提供容错检查功能,帮助用户隔离故障节点,优化用户训练体验。 容错检查包括两个检查项:环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一…
针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。 在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。普通模式的调测信息可参考查看训练日志。 针对于新增的…