华为云AI开发平台ModelArts训练作业失败,返回错误码139_云淘科技
问题现象
训练作业运行失败,返回错误码139,如下图所示:
图1 错误码信息
原因分析
出现该问题的可能原因如下
pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。
用户代码问题,出现了内存越界、踩内存的情况。
未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。
处理方法
如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。
图2 PIP安装对比图
推荐您使用本地Pycharm远程连接Notebook调试。
如果上述情况都解决不了,请联系技术支持工程师。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: 业务代码问题
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家