什么是训练作业卡死检测 训练作业在运行中可能会因为某些未知原因导致作业卡死,如果不能及时发现,就会导致无法及时释放资源,从而造成极大的资源浪费。为了节省训练资源成本,提高使用体验,ModelArts提供了卡死检测功能,能自动识别作业是否卡死…
出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即…
问题现象 训练作业中使用Tensorboard直接写入到OBS路径,出现如下类似报错。 图1 错误日志 原因分析 出现该问题的可能原因: 直接在OBS上写tensorboard文件,存在不稳定的风险。 处理方法 建议先将Tensorboar…
问题现象 训练作业失败,日志报出如下错误: 图1 错误日志 原因分析 可以从以下角度排查: 请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行c…
问题现象 多机或多卡使用“tf.variable”会造成以下错误:WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:…
问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO C…
问题现象 通过用户自定义镜像创建AI应用失败。 原因分析 可能原因如下: 导入AI应用使用的镜像地址不合法或实际镜像不存在 用户给ModelArts的委托中没有SWR相关操作权限 用户为子帐号,没有主帐号SWR的权限 使用的是非自己帐号的镜…
出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 Mo…
问题现象 使用Notebook运行代码,报错: FileNotFoundError: [Error 2] No usable temporary directory found in [‘/tmp’, ‘/var/tmp’, ‘/usr/t…
问题现象 在训练创建后出现“系统容器异常退出”的故障。 图1 错误日志 原因分析 出现该问题的可能原因如下: OBS相关错误。 OBS文件不存在。The specified key does not exist。 用户OBS权限不足。 OB…