华为云AI开发平台ModelArtsGPU A系列裸金属服务器RoCE带宽不足问题解决方法_云淘科技

问题现象

NVIDIA Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。

原因分析

“nv_peer_mem”是一个Linux 内核模块,它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。

所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。

处理方法

查看nv_peer_mem是否已安装。

dpkg -i | grep peer

若未安装则需要安装,安装方法参考装机指导。 若已安装则进入下一检测项。

查看该软件是否已经加载至内核。

lsmod | grep peer

若没有则需要重新加载至内核,执行如下命令进行加载:

/etc/init.d/nv_peer_mem start

如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。

若找不到相关文件的问题,可以搜一下相关文件在哪里,然后复制到指定目录,例如可执行如下命令:

cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf  /etc/infiniband/
cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem   /etc/init.d/

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家