本文为用户提供如何将本地的自定义算法通过简单的代码适配,实现在ModelArts上进行模型训练与部署的全流程指导。 场景描述 本案例用于指导用户使用PyTorch1.8实现手写数字图像识别,示例采用的数据集为MNIST官方数据集。 通过学习…
场景描述 本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案,可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和…
问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi D…
场景描述 本文主要介绍如何配置DCGM监控。DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。 前提条件 裸金属服…
前提条件 专属资源池未适配1.23以上的CCE版本,故在本指导适用于1.23版本CCE。 已购买资源,购买资源步骤请参考集群资源购买。 操作步骤 Step 1:登录节点 Step 2:配置kubectl工具 Step 3:准备业务基础镜像 …
本章节介绍用户如何开通集群资源。开通集群资源需要先联系客户经理进行预购,并提供相应的预购信息,预购完成后再正式购买开通。 开通后的资源会发放到用户帐号下。 贵阳一区域支持直接购买k8s Cluster资源开通(直接购买),下文的预购方式仅用…
本章节介绍用户如何开通集群资源。 当前仅限贵阳一区域支持直接购买,其他局点请参考k8s Cluster资源开通(预购)。 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 用户侧任务流程 …
场景描述 Server创建后,需要进行网络配置后,才可进行SSH访问,本章节介绍网络配置步骤。一个租户VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server资源均可以通过该EIP进行公网…
场景描述 本文旨在介绍裸金属服务器支持IPV6所需配置。裸金属服务器支持IPV6需要依赖规格、镜像、子网、安全组,对这些依赖项设置完成后,即可以在该裸金属服务上使用IPV6进行网络通信。 操作步骤 确认裸金属服务器规格支持IPV6。需要确保…
场景描述 本文将介绍在GPU Ant8裸金属服务器中, 使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。 背景信息 Megatron-Deep…