问题现象 训练作业在使用moxing拷贝数据时出现如下报错。 图1 错误日志 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在拷贝同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮…
问题现象 创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 …
问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’ 2.‘No CUDA-c…
什么是训练作业卡死检测 训练作业在运行中可能会因为某些未知原因导致作业卡死,如果不能及时发现,就会导致无法及时释放资源,从而造成极大的资源浪费。为了节省训练资源成本,提高使用体验,ModelArts提供了卡死检测功能,能自动识别作业是否卡死…
出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即…
问题现象 训练作业中使用Tensorboard直接写入到OBS路径,出现如下类似报错。 图1 错误日志 原因分析 出现该问题的可能原因: 直接在OBS上写tensorboard文件,存在不稳定的风险。 处理方法 建议先将Tensorboar…
问题现象 训练作业失败,日志报出如下错误: 图1 错误日志 原因分析 可以从以下角度排查: 请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行c…
问题现象 多机或多卡使用“tf.variable”会造成以下错误:WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:…
问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO C…
问题现象 通过用户自定义镜像创建AI应用失败。 原因分析 可能原因如下: 导入AI应用使用的镜像地址不合法或实际镜像不存在 用户给ModelArts的委托中没有SWR相关操作权限 用户为子帐号,没有主帐号SWR的权限 使用的是非自己帐号的镜…