华为云AI开发平台ModelArtsAtlas800训练服务器硬件指南_云淘科技
场景描述
本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。
Atlas 800训练服务器三维视图
Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景,可点击此处查看硬件三维视图。
Atlas 800训练服务器 HCCN Tool
Atlas 800 训练服务器 1.0.11 HCCN Tool 接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。
Atlas 800训练服务器备件查询助手
备件查询助手可以帮助你查询服务器的所有部件、规格描述,数量等详细信息。
打开网站后请输入SN编码“2102313LNR10P5100077”, 若失效可以提工单至华为云ModelArts查询。
Atlas 800训练服务器的网卡配置问题
机头网卡配置是什么?
有以下两类网卡:
四个2*100GE网卡,为RoCE网卡,插在NPU板。
一个4*25GE/10GE,为Hi1822网卡,插在主板上的。
ifconfig能看到的网卡信息吗
能看到主板上的网卡信息,即VPC分配的私有IP。若要看RoCE网卡的命令需要执行“hccn_tools”命令查看,参考Atlas 800 训练服务器 1.0.11 HCCN Tool 接口参考中的指导。
NPU上的网卡在哪里可以看到, 会健康检查吗?
8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。
父主题: FAQ
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家