问题现象 Modelarts自定义镜像旧版训练回传数据失败。 原因分析 自定义镜像的临时AK/SK在20小时后失效,所以Moxing访问OBS失败。 处理方法 需要在代码配置永久AK/SK访问OBS,代码参考如下: # 首先删除环境变量。 …
请求在APIG(API网关)出现问题被拦截,报错APIG.XXXX。 常见报错: APIG.0101 预测地址错误 APIG.0201 请求体内容过大 APIG.0301 鉴权失败 APIG.1009 AppKey和AppSecret不匹配…
问题现象 用户创建AI应用时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建AI应用时,事件提示:复制模型文件失败,请检查OBS权限是…
该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将”/c…
问题现象 使用订阅算法物体检测YOLOv3_ResNet18(Ascend) 新版训练失败报错label_map.pbtxt cannot be found。 原因分析 该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据…
问题现象 通过API接口查询AI应用详情,model_name返回值出现乱码。例如model_name为query_vec_recall_model,但是api接口返回结果是query_vec_recall_model_b。 图1 mode…
问题现象 部署在线服务出现报错No CUDA runtime is found,using CUDA_HOME=’/usr/local/cuda’。 原因分析 从日志报错信息No CUDA runtime is fo…
问题现象 服务预测请求超时,报错{“error_code”: “ModelArts.4205″,”error_msg”:”Connection time o…
问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问…
问题现象 训练作业的状态一直在“创建中”,查看训练作业的“事件”,有异常信息“实例挂卷失败”,详情为“Unable to mount volumes for pod xxx … list of unmounted volumes…