问题现象 使用旧版训练的自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命…
问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出…
问题现象 ModelArts训练作业无法解析参数,遇到如下报错,导致无法正常运行: error: unrecognized arguments: –data_url=xxx://xxx/xxx error: unrecognized ar…
问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编…
问题现象 ModelArts如何安装自定义库函数,例如“apex”。 ModelArts训练环境安装第三方包时出现如下报错: xxx.whl is not a supported wheel on this platform 原因分析 由于…
问题现象 ModelArts训练作业导入模块时日志报错: Traceback (most recent call last):File “project_dir/main.py”, line 1, in from module_dir im…
问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified key does not exist. 原因…
问题现象 训练作业保存模型时日志报错,具体信息如下: InternalError (see above for traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错…
问题现象 ModelArts训练作业出现如下报错: Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum allowed obje…
问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing. Found…