问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,预测失败。 原因分析及处理方法 服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。 图1 推理服务…
问题现象 在使用pytorch时,将torchvision.models中的pretrained置为了True,日志中出现如下报错: ‘OSError: [Errno 101] Network is unreachable’ 原因分析 出现…
问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ[“NCCL_DEBUG”] = “INFO” 会出现如下错误: 图1 错误日志 原因分析 可能原因如下: 原因1:未…
问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are …
问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No s…
问题现象 训练作业访问挂载的EFS,或者是执行.sh启动脚本时,出现如下错误: [Errno 13]Permission denied: ‘/xxx/xxxx’ 图1 错误日志 bash: /bin/ln: Perm…
问题现象 部署边缘服务时,出现“异常”状态。 原因分析 部署边缘服务时,使用到IEF纳管的边缘节点,就需要用户给ModelArts的委托赋予Tenant Administrator权限,否则将无法成功部署边缘服务。具体可参见IEF的权限说明…
问题现象 在JupyterLab中使用git插件时,当git clone私有仓库和git push文件时会出现如下报错: 原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式…
问题现象 使用pytorch进行分布式训练时,出现如下错误: 图1 错误日志 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据拷贝的,每个节点拷贝的速度不是同一个时间完成的,然后有的节点没有拷贝完,其他节点进行torch.di…
问题现象 输入输出目录不存在,报如下错误 “error_code”: “ModelArts.3551”, “error_msg”: “OBS path xxxx does not exist.” 当访问目录权限不足时,报如下错误 “erro…