华为云AI开发平台ModelArts服务部署、启动、升级和修改时,资源不足如何处理?_云淘科技

问题现象

启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are available for the selected specification.)

图1 资源不足,服务调度失败

原因分析

实例配置的规格过大,CPU或者内存剩余资源不足;(”insufficient CPU” / “insufficient memory”)
模型需要的磁盘空间大,磁盘空间不足;(”x node(s) had taint {node.kubernetes.io/disk-pressure: }” / “No space”)

解决方法

在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。

如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决:

如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署;
如果当前资源池的资源确实不够,也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容,请联系系统管理员。专属资源池扩容,可参考扩缩容资源池。
如果磁盘空间不够,可以尝试重试,使实例调度到其他节点。如果单实例仍磁盘空间不足,请联系系统管理员,更换合适的规格。

如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。

父主题: 服务部署

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家