问题现象 训练作业运行出现如下报错: failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练…
问题现象 使用kv_store = mxnet.kv.create(‘dist_async’)方式创建“kvstore”时程序被阻塞。如,执行如下代码,如果无法输出“end”,表明程序阻塞。 print(‘start…
问题现象 用户提交的Caffe模型出现转换不成功。 转换失败后,您可以在模型转换任务详情页面获得相应日志。如果出现如下类似日志,表示算子不支持导致转换失败。 ‘Error your model contain ddk not supoort…
问题现象 服务状态一直处于“部署中”,查看AI应用日志未发现服务有明显错误。 原因分析 一般情况都是AI应用的端口配置有问题。建议您首先检查创建AI应用的端口是否正确。 处理方法 AI应用的端口没有配置,默认为8080,如您在自定义镜像配置…
部署上线调用API报错,排查项如下: 确认配置文件模型的接口定义中有没有POST方法。 确认配置文件里url是否有定义路径。例如:“/predictions/poetry”(默认为“/”)。 确认API调用中body体中的调用路径是否拼接自…
当Notebook容器因内存溢出等原因导致崩溃时,若此时单击Notebook的打开按钮时,将会出现“请求超时”错误。 该种情况下,请耐心等待容器恢复,约几十秒,再重新单击打开按钮即可。 父主题: 实例故障 同意关联代理商云淘科技,购买华为云…
问题现象 ModelArts训练作业无法解析参数,遇到如下报错,导致无法正常运行: error: unrecognized arguments: –data_url=xxx://xxx/xxx error: unrecognized ar…
问题现象 训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败,该作业节点会被自动隔离,需要重启…
问题现象 预测流量不大但频繁出现以下报错 Backend service internal error. Backend service read timed out Send the request from gateway to the…
问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,No…