华为云AI开发平台ModelArts训练作业进程被kill_云淘科技

问题现象

用户进程被Kill表示用户进程因外部因素被Kill或者中断,表现为日志中断。

原因分析

CPU软锁

在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。

存储限制

根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。

CPU过载

减少线程数。

排查办法

根据错误信息判断,报错原因来源于用户代码。

您可以通过以下两种方式排查:

线上环境调试代码(仅适用于非分布式代码)

在开发环境(notebook)申请相同规格的开发环境实例。
在notebook调试用户代码,并找出问题的代码段。
通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。,

通过训练日志排查问题

通过日志判断出问题的代码范围。
修改代码,在问题代码段添加打印,输出更详细的日志信息。
再次运行作业,判断出问题的代码段。

父主题: 业务代码问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家