华为云AI开发平台ModelArts训练作业运行失败_云淘科技
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用旧版自定义镜像创建训练作业,找不到启动文件 自定义镜像旧版训练作业回传数据失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_m…
共6项
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用旧版自定义镜像创建训练作业,找不到启动文件 自定义镜像旧版训练作业回传数据失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_m…
问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO C…
问题现象 使用旧版训练的自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命…
问题现象 Modelarts自定义镜像旧版训练回传数据失败。 原因分析 自定义镜像的临时AK/SK在20小时后失效,所以Moxing访问OBS失败。 处理方法 需要在代码配置永久AK/SK访问OBS,代码参考如下: # 首先删除环境变量。 …
问题现象 使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 新版训练失败报错label_map.pbtxt cannot be found。 原因分析 该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据…
问题现象 使用订阅算法图像分类-EfficientNetB4进行训练报错:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多标签分类导致(即一个图片用了1个以上的标签)。 处理方法 使用单标签…