华为云AI开发平台ModelArtsinfiniband驱动的安装_云淘科技

infiniband驱动的安装

如果安装了 libibverbs-dev 库后仍然无法使能 infiniband 网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniband驱动需要在制作镜像时安装。

操作步骤

下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz。

进入地址https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/,点击“Download”,选择“Archive Versions”,“Version”选择“4.3-1.0.1.0”,“OS Distribution”选择“Ubuntu”,“OS Distribution Version”选择“Ubuntu 16.04”,“Architecture”选择“x86_64”,下载MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz。

宿主机安装的 infiniband 驱动版本为 4.3-1.0.1.0,容器镜像中安装的 infiniband 驱动版本需要与宿主机版本匹配,即同为 4.3-1.0.1.0。

可能部分区域的网卡较新,会出现更高版本的 infiniband 驱动版本,如果您遇到了 infiniband 驱动安装后,仍然无法使能 infiniband 网卡的问题,可以咨询相关运维人员以确认宿主机的实际 infiniband 驱动版本。

图1 下载驱动

参考如下Dockerfile中,以在容器镜像中安装infiniband驱动。

USER root

# copy MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz to docker image

RUN tar xzvf MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz && \
    cd MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64 && \
    chmod +x mlnxofedinstall && \
    ./mlnxofedinstall --user-space-only --without-fw-update --force && \
    cd - && \
    rm MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64.tgz && \
    rm -rf MLNX_OFED_LINUX-4.3-1.0.1.0-ubuntu16.04-x86_64
 
USER ma-user

验证infiniband驱动是否安装成功。

在训练代码中执行以下命令,若无报错则infiniband驱动安装成功:

os.system("ofed_info")

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家