华为云AI开发平台ModelArts训练作业的日志出现detect failed(昇腾预检失败)_云淘科技
问题现象
训练启动的日志出现如下相关错误:
time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed, error: fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service time="2023-05-27T07:07:13Z" level=error msg="[detect] ascend-check error, exiting..." file="run_train.go:94" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service
原因分析
出现该问题的可能原因如下:
用户的自定义镜像中无ascend_check工具,导致启动预检失败。
用户的自定义镜像中的ascend相关工具不可用,导致预检失败。
处理方法
通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。
父主题: Ascend相关问题
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家