华为云AI开发平台ModelArts训练作业失败,返回错误码139_云淘科技

问题现象

训练作业运行失败,返回错误码139,如下图所示:

图1 错误码信息

原因分析

出现该问题的可能原因如下

pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。
用户代码问题,出现了内存越界、踩内存的情况。
未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。

处理方法

如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。

图2 PIP安装对比图

推荐您使用本地Pycharm远程连接Notebook调试。
如果上述情况都解决不了,请联系技术支持工程师。

建议与总结

在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。

直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。

父主题: 业务代码问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家