华为云AI开发平台ModelArts拷贝数据至容器中空间不足_云淘科技

问题现象

ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法拷贝至容器中。

OSError:[Errno 28] No space left on device

原因分析

数据下载至容器的位置空间不足。

处理方法

请排查是否将数据下载至/cache目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。
请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,/cache与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。
请在代码中添加环境变量来解决。

import os
os.system('export TMPDIR=/cache')

父主题: 内存限制故障

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家