华为云AI开发平台ModelArts资源池异常处理_云淘科技
资源配额限制
在使用专属资源池时(如资源扩缩容、创建VPC、创建VPC-子网、打通VPC),如果提示相关资源配额受限,请提交工单处理。
创建失败/变更失败
登录ModelArts管理控制台,选择左侧导航栏“专属资源池 > 弹性集群”,默认进入“资源池”页面。
您可以通过单击“创建”右侧的“操作记录”,查看当前处于失败状态的资源池信息。
图1 创建失败资源池信息
鼠标悬停在“状态”列的上,即可看到该操作失败的具体原因。
失败的记录默认按照操作的申请时间排序,最多显示500条并保留3天。
节点故障定位
ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
隔离码 |
分类 |
子类 |
异常中文描述 |
检测方法 |
---|---|---|---|---|
A050101 |
GPU |
显存 |
GPU ECC错误。 |
通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。 对于Ampere架构的GPU,存在以下场景: 存在不可纠正的SRAM错误。 |
A050102 |
GPU |
其他 |
nvidia-smi返回信息中包含ERR。 |
通过nvidia-smi -a查询到ERR!,通常为硬件问题,如电源风扇等问题。 |
A050103 |
GPU |
其他 |
nvidia-smi执行错误,超时或者不存在。 |
执行nvidia-smi退出码非0。 |
A050104 |
GPU |
显存 |
ECC错误到达64次。 |
通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 |
A050148 |
GPU |
其他 |
infoROM告警。 |
执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。 |
A050109 |
GPU |
其他 |
GPU其他错误。 |
检测到的其他GPU错误,通常为硬件问题,请联系技术人员支持。 |
A050147 |
IB |
链路 |
IB网卡异常。 |
ibstat查看网卡非Active状态。 |
A050121 |
NPU |
其他 |
npu dcmi接口检测到driver异常。 |
NPU驱动环境异常。 |
A050122 |
NPU |
其他 |
npu dcmi device异常。 |
NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 |
A050123 |
NPU |
链路 |
npu dcmi net异常。 |
NPU网络链接异常。 |
A050129 |
NPU |
其他 |
NPU其他错误。 |
检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 |
A050149 |
NPU |
链路 |
hccn tool网口闪断检查。 |
NPU网络不稳定,存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。 |
A050951 |
NPU |
显存 |
NPU ECC次数达到维修阈值。 |
NPU的HBM Double Bit Isolated Pages Count值大于等于64。 |
A050146 |
Runtime |
其他 |
ntp异常。 |
ntpd或者chronyd服务异常。 |
A050202 |
Runtime |
其他 |
节点NotReady。 |
节点不可达,k8sNode存在以下污点之一: node.kubernetes.io/unreachable |
A050203 |
Runtime |
掉卡 |
AI正常卡数和实际容量不匹配。 |
检测到存在GPU或NPU掉卡情况。 |
A050206 |
Runtime |
其他 |
Kubelet硬盘只读。 |
“/mnt/paas/kubernetes/kubelet”目录为只读状态。 |
A050801 |
节点管理 |
节点运维 |
资源预留。 |
节点被标记为备机,并具有备机污点。 |
A050802 |
节点管理 |
节点运维 |
未知错误。 |
节点被标记为具有未知故障污点。 |
A200001 |
节点管理 |
驱动升级 |
GPU升级。 |
节点正在执行GPU驱动升级。 |
A200002 |
节点管理 |
驱动升级 |
NPU升级。 |
节点正在执行NPU驱动升级。 |
A200008 |
节点管理 |
节点准入 |
准入检测。 |
节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 |
A050933 |
节点管理 |
容错Failover |
当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 |
当节点标记该污点时,会将节点上容错(Failover)业务迁移走。 |
A050931 |
训练toolkit |
预检容器 |
训练预检容器检测到GPU错误。 |
训练预检容器检测到GPU错误。 |
A050932 |
训练toolkit |
预检容器 |
训练预检容器检测IB错误。 |
训练预检容器检测IB错误。 |
父主题: 弹性集群
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家