OBS操作相关故障 云上迁移适配故障 内存限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题 同意关联代理商云淘科…
问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are …
问题现象 在Notebook的Terminal中执行tensorboard –logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用…
问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认…
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用旧版自定义镜像创建训练作业,找不到启动文件 自定义镜像旧版训练作业回传数据失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_m…
问题现象 模型转换失败,报错Model contains dynamic shape input, please specify input shape explicitly。 图1 模型转换报错 原因分析 模型转换时需要填写参数“输入张量…
出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即…
读取文件报错,如何正确读取文件? TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint…
问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和wo…
问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO C…