华为云AI开发平台ModelArts训练作业的日志出现detect failed(昇腾预检失败)_云淘科技

问题现象

训练启动的日志出现如下相关错误:

time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed, error: fork/exec /home/ma-user/modelarts/bin/detect/ascend_check: no such file or directory" file="ascend_check.go:56" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service
time="2023-05-27T07:07:13Z" level=error msg="[detect] ascend-check error, exiting..." file="run_train.go:94" Command=bootstrap/run Component=ma-training-toolkit Platform=ModelArts-Service

原因分析

出现该问题的可能原因如下:

用户的自定义镜像中无ascend_check工具,导致启动预检失败。
用户的自定义镜像中的ascend相关工具不可用,导致预检失败。

处理方法

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。

父主题: Ascend相关问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家