自定义容器在ModelArts上训练和本地训练的区别如下图: 图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。 增加了和OBS交互工作的整个训练流程如下: 建议使用OB…
云上挂载路径 Notebook中挂载SFS后,SFS默认在“/home/ma-user/work”路径下。在创建训练作业时,可在云上挂载路径中“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/w…
在创建训练任务时,启动命令输入为“env”。 图1 启动命令 待任务执行完成后,在训练任务详情中查看日志。日志中即为所有的环境变量信息。 图2 查看日志 父主题: FAQ 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851…
infiniband驱动的安装 如果安装了 libibverbs-dev 库后仍然无法使能 infiniband 网卡,您可以直接安装infiniband官方驱动,以使用infiniband网卡进行分布式通信,提升训练性能。infiniba…
断点续传上传接口支持暂停上传任务,示例代码如下: // 创建ObsClient实例 var obsClient = new ObsClient({ // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境…
使用BrowserJS SDK与OBS服务交互时,必须将AK/SK暴露到前端,这样会存在安全问题。为避免该问题出现,可让后端生成临时签名URL给前端后,前端再与OBS交互。 比如:实现上传功能。 // 后端使用NodeJS SDK // 引…
问题现象 在V100 GPU裸金属服务器(Ubuntu18.04系统),根据GPU V100裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4安装NVIDIA 470+CUDA 11.4后使用“nvidia-s…
问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用GPU裸金属服务器时, 将数据放在SF…
问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令是…
使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考GPU Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11…