华为云AI开发平台ModelArtsAtlas800训练服务器硬件指南_云淘科技

场景描述

本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。

Atlas 800训练服务器三维视图

Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景,可点击此处查看硬件三维视图。

Atlas 800训练服务器 HCCN Tool

Atlas 800 训练服务器 1.0.11 HCCN Tool 接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。

Atlas 800训练服务器备件查询助手

备件查询助手可以帮助你查询服务器的所有部件、规格描述,数量等详细信息。

打开网站后请输入SN编码“2102313LNR10P5100077”, 若失效可以提工单至华为云ModelArts查询。

Atlas 800训练服务器的网卡配置问题

机头网卡配置是什么?

有以下两类网卡:

四个2*100GE网卡,为RoCE网卡,插在NPU板。
一个4*25GE/10GE,为Hi1822网卡,插在主板上的。

ifconfig能看到的网卡信息吗

能看到主板上的网卡信息,即VPC分配的私有IP。若要看RoCE网卡的命令需要执行“hccn_tools”命令查看,参考Atlas 800 训练服务器 1.0.11 HCCN Tool 接口参考中的指导。

NPU上的网卡在哪里可以看到, 会健康检查吗?

8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家