问题现象 使用CV2包部署在线服务报错 原因分析 使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为…
问题现象 在部署在线服务时,状态显示为“告警”。 解决方法 使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下3个角度进行排查,并重新部署。 后台预测请求过多。 如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请…
问题现象 创建AI应用成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的AI应用时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。…
问题现象 通过OBS创建AI应用构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pyp…
问题现象 用户提交的Caffe模型出现转换不成功。 转换失败后,您可以在模型转换任务详情页面获得相应日志。如果出现如下类似日志,表示算子不支持导致转换失败。 ‘Error your model contain ddk not supoort…
问题现象 用户进程被Kill表示用户进程因外部因素被Kill或者中断,表现为日志中断。 原因分析 CPU软锁 在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限…
问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动…
问题现象 当创建训练作业的“算法来源”选择“自定义”镜像创建训练作业时,训练作业状态显示审核作业初始化。 原因分析 自定义镜像首次运行时,需要先审核镜像,通过审核之后才可创建作业,即当前状态为审核作业初始化。 父主题: 业务代码问题 同意关…
问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: ‘bndbox’ 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。 处理方法 此问题有两种解决方法:…
问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练…