华为云AI开发平台ModelArts常见的磁盘空间不足的问题和解决办法_云淘科技

该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。

问题现象

训练过程中拷贝数据/代码/模型时出现如下报错:

图1 错误日志

原因分析

出现该问题的可能原因如下:

本地数据、文件保存将”/cache”目录空间用完。
数据处理过程中对数据进行解压,导致数据大小膨胀,将”/cache”目录空间用完。
数据未保存至/cache目录或者/home/ma-user/目录(/cache会软连接成/home/ma-user/),导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。
部分训练任务会在训练过程中生成checkpoint文件,并进行更新。如更新过程中,未删除历史的checkpoint文件,会导致/cache目录逐步被用完。
实际存储空间足够,却依旧报错“No Space left on device”。可能触发操作系统的文件索引缓存问题,导致操作系统无法创建文件,造成用户磁盘占满。

触发条件和下面的因素有关:

文件名越长,文件数量的上限越小
blocksize越小,文件数量的上限越小。( blocksize,系统默认 4096B。总共有三种大小:1024B、2048B、4096B)
创建文件越快,越容易触发(机制大概是:有一个缓存,这块大小和上面的1和2有关,目录下文件数量比较大时会启动,使用方式是边用边释放)

程序运行过程中,产生了core文件,core文件占满了”/”根目录空间。

处理方法

排查数据集大小、数据集解压后的大小,checkpoint保存文件大小,是否占满了磁盘空间。具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小
如数据大小已超过/cache目录大小,则可以考虑通过SFS来额外挂载数据盘进行扩容。
将数据和checkpoint保存在/cache目录或者/home/ma-user/目录
检查checkpoint相关逻辑,保证历史checkpoint不会不断积压,导致/cache目录用完
如文件大小小于/cache目录大小并且文件数量超过50w,则考虑为触发操作系统的文件索引相关问题。需要:

分目录处理,减少单个目录文件量。
减慢创建文件的速度。如数据解压过程中,sleep 5s后再进行下一个数据的解压。

如果是有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。并推荐先在开发环境中进行代码调试。

import os
os.system("ulimit -c 0")

建议与总结

在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。

直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。

父主题: 内存限制故障

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家