出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 父主题: 模型发布 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太…
问题现象 ModelArts训练作业无法解析参数,遇到如下报错,导致无法正常运行: error: unrecognized arguments: –data_url=xxx://xxx/xxx error: unrecognized ar…
问题现象 训练过程中出现如下报错: TypeError: ‘(slice(0, 13184, None), slice(None, None, None))’ is an invalid key 原因分析 出现该问题的可能原因如下: 切分数…
问题现象 用户进程被Kill表示用户进程因外部因素被Kill或者中断,表现为日志中断。 原因分析 CPU软锁 在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限…
问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出…
问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:9…
问题现象 训练过程中出现如下报错: DataFrame.dtypes for data must be int, float or bool 原因分析 出现该问题的可能原因如下: 训练数据中出现了非int、float、bool类型数据。 处…
问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,报错“ModelArts.4206”。 原因分析 ModelArts.4206表示该API的请求流量超过了设定值。为了保证服务的平稳运行,ModelArts对单个…
问题现象 使用旧版训练的自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命…
问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a…