
问题现象 训练作业在使用moxing拷贝数据时出现如下报错。 图1 错误日志 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在拷贝同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮…
共9项
问题现象 训练作业在使用moxing拷贝数据时出现如下报错。 图1 错误日志 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在拷贝同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮…
问题现象 训练作业中使用Tensorboard直接写入到OBS路径,出现如下类似报错。 图1 错误日志 原因分析 出现该问题的可能原因: 直接在OBS上写tensorboard文件,存在不稳定的风险。 处理方法 建议先将Tensorboar…
读取文件报错,如何正确读取文件? TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint…
问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for trac…
问题现象 启动tensorboard后,打开tensorboard提示502 bad gateway,或者偶现502 bad gateway。 原因分析 出现该问题的可能原因如下: 启动tensorboard对应的summary目录错误,导…
问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified key does not exist. 原因…
问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing. Found…
问题现象 ModelArts训练作业出现如下报错: Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum allowed obje…
问题现象 训练作业保存模型时日志报错,具体信息如下: InternalError (see above for traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错…