问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认…
问题现象 使用TensorFlow框架编写的模型,在运行模型转换任务时,任务失败,且报错日志信息如下: 解决方法 针对模型转换失败的任务,请根据如下排除指导进行排查。 检查当前帐号是否具备转换任务中“转换输入目录”和“转换输出目录”的权限。…
问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的,如果没有自动重启,创建一直失败,请确认…
问题现象 在Notebook的Terminal中执行tensorboard –logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用…
问题现象 因为OOM导致的训练作业失败,会有如下几种现象: 错误码返回137,如下图所示: 图1 错误日志 日志中有报错,含有“killed”相关字段,例如如下截图: 图2 错误日志信息 日志中有报错“RuntimeError: CUDA …
问题现象 模型转换失败,报错Model contains dynamic shape input, please specify input shape explicitly。 图1 模型转换报错 原因分析 模型转换时需要填写参数“输入张量…
问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,预测失败。 原因分析及处理方法 服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。 图1 推理服务…
问题现象 在使用pytorch时,将torchvision.models中的pretrained置为了True,日志中出现如下报错: ‘OSError: [Errno 101] Network is unreachable’ 原因分析 出现…
问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ[“NCCL_DEBUG”] = “INFO” 会出现如下错误: 图1 错误日志 原因分析 可能原因如下: 原因1:未…
问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are …