![](https://www.xishuyun.com/wp-content/uploads/2024/01/20240104115318-65969c2ea0c26.png)
Ascend场景日志说明 使用Ascend资源运行训练作业时,会产生Ascend相关日志。Ascend训练场景下会生成device日志、plog日志、proc log单卡训练日志、MindSpore日志、普通日志。 其中,Ascend训练场…
Ascend场景日志说明 使用Ascend资源运行训练作业时,会产生Ascend相关日志。Ascend训练场景下会生成device日志、plog日志、proc log单卡训练日志、MindSpore日志、普通日志。 其中,Ascend训练场…
登录ModelArts管理控制台。 在左侧导航栏中,选择“训练管理 > 训练作业”,进入“训练作业”列表。 在“训练作业”列表中,单击作业名称,进入训练作业详情页 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关…
什么是断点续训练和增量训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 增量训练是指增加新的训练数…
ModelArts提供查找算法功能帮助用户快速查找算法。 操作一:按照名称、镜像、代码目录、描述、创建时间筛选的高级搜索。 操作二:单击右上角“刷新”图标,刷新算法列表。 操作三:自定义列功能设置。 图1 查找算法 图2 自定义列功能设置 …
背景信息 对于用户希望优化的超参,需在“超参”设置中定义,可以给定名称、类型、默认值、约束等,具体设置方法可以参考定义超参。 如果用户使用的AI引擎为pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x…
什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练任务环境变量 NCCL(Nvidia Collective multi-GPU Communication Librar…
当您使用预置框架创建算法时,您需要提前完成算法的代码开发。本章详细介绍如何改造本地代码以适配ModelArts上的训练。 创建算法时,您需要在创建页面提供代码目录路径、代码目录路径中的启动文件、训练输入路径参数和训练输出路径参数。这四种输入…
ModelArts支持在新版开发环境中开启TensorBoard和MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 ModelArts可视化作业支持…
AI模型开发的过程,称之为Modeling,一般包含两个阶段: 开发阶段:准备并配置环境,调试代码,使代码能够开始进行深度学习训练,推荐在ModelArts开发环境中调试。 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,…
针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。 在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。普通模式的调测信息可参考查看训练日志。 针对于新增的…