华为云AI开发平台ModelArts资源选择推荐_云淘科技
不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快速了解如何在ModelArts上选择合适的训练方案并进行模型训练。
针对不同的数据量和算法情况,推荐以下训练方案:
单机单卡:小数据量(1G训练数据)、低算力场景(1卡V100),存储方案使用“OBS的并行文件系统(存放数据和代码)”。
单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡V100),存储方案使用SFS(存放数据和代码)。
多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡V100),存储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。
场景 |
OBS |
SFS |
SWR |
DEW |
ModelArts |
VPC |
ECS |
EVS |
---|---|---|---|---|---|---|---|---|
单机单卡 |
按需购买。(并行文件系统) |
× |
免费。 |
免费。 |
包月购买。 |
免费。 |
× |
按需购买。 |
单机多卡 |
× |
包月购买。 (HPC型500G) |
免费。 |
免费。 |
包月购买。 |
免费。 |
包月购买。 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) |
× |
多机多卡 |
按需购买。 (普通OBS桶) |
包月购买。 (HPC型500G) |
免费。 |
免费。 |
包月购买。 |
免费。 |
包月购买。 (建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) |
× |
算法及数据 |
资源规格 |
Epoch数 |
运行时长(hh:mm:ss) |
---|---|---|---|
算法:PyTorch官方针对ImageNet的样例 数据:ImageNet 猫狗分类数据子集 |
1机1卡V100 |
10 |
0:05:03 |
算法:YOLOX 数据:COCO2017 |
1机1卡V100 |
10 |
03:33:13 |
1机8卡V100 |
10 |
01:11:48 |
|
4机8卡V100 |
10 |
0:36:17 |
|
算法:Swin-Transformer 数据:ImageNet21K |
1机1卡V100 |
10 |
197:25:03 |
1机8卡V100 |
10 |
26:10:25 |
|
4机8卡V100 |
10 |
07:08:44 |
步骤 |
说明 |
时长 |
---|---|---|
镜像下载 |
首次下载镜像的时间(25G)。 |
8分钟 |
资源调度 |
点创建训练任务开始到变成运行中的时间(资源充足、镜像已缓存)。 |
20秒 |
训练列表页打开 |
已有50条训练作业,点击训练模块后的时间。 |
6秒 |
日志加载 |
作业运行中,已经输出1兆的日志文本,点击训练详情页面需要多久加载出日志。 |
2.5秒 |
训练详情页 |
作业运行中,没有用户日志情况下,在ModelArts控制台主页面点击训练详情页面后加载页面内容。 |
2.5秒 |
JupyterLab页面 |
进入JupyterLab页面后加载页面内容。 |
0.5秒 |
Notebook列表页 |
已有50个Notebook实例,在ModelArts控制台主页面点击开发环境后的时间。 |
4.5秒 |
镜像下载时间受节点规格、节点硬盘类型(高IO/普通 IO)、是否SSD等因素影响,以上数据仅供参考。
父主题: 专属资源池训练上云最佳实践
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家