华为云AI开发平台ModelArts训练中途卡死_云淘科技
问题现象1
检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。
解决方案1
查看报错原因,解决报错。
问题现象2
作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因开了sync-batch-norm以后,每一个iter里面每个batch-norm层都要做同步,通信量很大,而且要所有节点同步。
解决方案2
关掉 sync-batch-norm,或者升pytorch版本,升级pytorch到1.10。
问题现象3
作业卡在tensorboard中,如下图所示:
解决方案3
存储路径设为本地路径,如cache/tensorboard,不要使用OBS路径。
问题现象4
使用pytorch中的dataloader读数据时,作业卡在读数据过程中,日志停在训练的过程中并不再更新日志。
解决方案4
用dataloader读数据时,适当减小Numwork,如下图所示:
父主题: 训练作业卡死
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家