华为云AI开发平台ModelArts日志提示”write line error”_云淘科技

问题现象

在程序运行过程中,刷出大量错误日志”write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误,具体见下面截图:

图1 错误日志

原因分析

出现该问题的可能原因如下:

程序运行过程中,产生了core文件,core文件占满了”/”根目录空间。
本地数据、文件保存将”/cache”目录3.5T空间用完了。

云上训练磁盘空间一般指如下两个目录的磁盘空间:

“/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。
“/cache”目录满了,一般是3.5T存储空间满了,具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。

处理方法

如果是有core文件生成,可以在启动脚本最前面加上如下代码,来关闭core文件产生。

import os
os.system("ulimit -c 0")

排查数据集大小,checkpoint保存文件大小,是否占满了磁盘空间。
必现的问题,使用本地Pycharm远程连接Notebook调试。

建议与总结

在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。

直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。

父主题: 内存限制故障

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家