华为云AI开发平台ModelArtsGPU A系列裸金属服务器RoCE性能带宽测试_云淘科技

场景描述

本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。

前提条件

GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。)

操作步骤

方法1:使用mlx 硬件计数器,估算ROCE网卡收发流量

统计300s内流量,统计脚本如下:

x=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
sleep 300
y=$(cat /sys/class/infiniband/mlx5_2/ports/1/counters/port_rcv_data)
res=$(($y-$x))
echo $res

上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。

方法2:使用ib_write_bw测试 RDMA 的读写处理确定带宽

服务器A:服务端从mlx4_0网卡接收数据

ib_write_bw -a -d mlx5_0

服务器B:客户端向服务端mlx4_0网卡发送数据。

ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits

图1 服务器A执行结果

图2 服务器B执行结果

父主题: GPU裸金属服务器环境配置

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家