该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将”/c…
问题现象 在程序运行过程中,刷出大量错误日志”write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误,具体见下面截图: 图1 错误日志 原因分析 出现该问题的可能原因如下: 程序运…
问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认…
问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和wo…
问题现象 训练过程中拷贝数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认…
问题现象 因为OOM导致的训练作业失败,会有如下几种现象: 错误码返回137,如下图所示: 图1 错误日志 日志中有报错,含有“killed”相关字段,例如如下截图: 图2 错误日志信息 日志中有报错“RuntimeError: CUDA …
下载或读取文件报错,提示超时、无剩余空间 拷贝数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示”write line error̶…
问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法拷贝至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否…
问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:9…