华为云AI开发平台ModelArts分布式训练功能介绍_云淘科技

AI开发平台ModelArts

3 月 20, 2023

112 0

ModelArts提供了如下能力：

丰富的官方预置镜像，满足用户的需求。
支持基于预置镜像自定义制作专属开发环境，并保存使用。
丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。
分布式训练调测的能力，可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。

约束限制

开发环境指的是ModelArts提供的新版Notebook，不包括旧版Notebook。
总览页面打开的CodeLab不支持此项功能，但是如果用户在AI Hub中打开了可用的案例，会自动跳转到CodeLab中，此时是可以使用这项功能的。
如果切换了Notebook的规格，那么只能在Notebook进行单机调测，不能进行分布式调测，也不能提交远程训练任务。
当前仅支持Pytorch和MindSpore AI框架，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。
本文档提供的调测代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。
本文档提供的调测代码是以Pytorch为例编写的，不同的AI框架之间，整体流程是完全相同的，只需要修改个别的参数即可。