问题现象 在训练创建后出现“系统容器异常退出”的故障。 图1 错误日志 原因分析 出现该问题的可能原因如下: OBS相关错误。 OBS文件不存在。The specified key does not exist。 用户OBS权限不足。 OB…
问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multipro…
问题现象 使用旧版训练的自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命…
问题现象 使用预置AI算法部署在线服务报错gunicorn:error:unrecorgized arguments… 图1 在线服务报错 原因分析 根据报错日志分析,模型目录下存在多余文件“/home/mind/model/v…
训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败。 首次请检查您的帐户是否欠费。如果帐号状态正常。请针对不同类型的作业进行排查。 针对图像分类、声音分类、文本分类的作业,排查思路请参见确保OBS中的数据存在、检查OBS的访问…
问题现象 训练作业访问OBS时,出现如下报错: 图1 报错信息 原因分析 出现该问题的可能原因如下: OBS服务的权限出现问题,导致无法正常读取数据 处理方法 请检查OBS权限配置,如未解决问题可参考OBS文档的已配置OBS权限,仍然无法访…
问题现象 Modelarts自定义镜像旧版训练回传数据失败。 原因分析 自定义镜像的临时AK/SK在20小时后失效,所以Moxing访问OBS失败。 处理方法 需要在代码配置永久AK/SK访问OBS,代码参考如下: # 首先删除环境变量。 …
请求在APIG(API网关)出现问题被拦截,报错APIG.XXXX。 常见报错: APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配…
问题现象 用户创建AI应用时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建AI应用时,事件提示:复制模型文件失败,请检查OBS权限是…
该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将”/c…