出现此问题时,表示数据集版本发布成功,但是不满足自动学习训练作业要求,因此出现数据集版本不合格的错误提示。 标注信息不满足训练要求 针对不同类型的自动学习项目,训练作业对数据集的要求如下。 图像分类:用于训练的图片,至少有2种以上的分类(即…
问题现象 在Notebook的Terminal中执行tensorboard –logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用…
问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认…
训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用旧版自定义镜像创建训练作业,找不到启动文件 自定义镜像旧版训练作业回传数据失败 订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_m…
问题现象 模型转换失败,报错Model contains dynamic shape input, please specify input shape explicitly。 图1 模型转换报错 原因分析 模型转换时需要填写参数“输入张量…
出现此问题时,表示数据不满足数据管理模块的要求,导致数据集发布失败,无法执行自动学习的下一步流程。 请根据如下几个要求,检查您的数据,将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 Mo…
读取文件报错,如何正确读取文件? TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint…
问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和wo…
问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“NCCL WARN Bootstrap : no socket interface found”或“NCCL INFO C…
问题现象 用户创建AI应用时,构建镜像失败,失败日志中提示下载obs文件失败(Get object size from OBS failed!)。 图1 下载obs文件失败 用户创建AI应用时,事件提示:复制模型文件失败,请检查OBS权限是…