华为云AI开发平台ModelArts提交训练作业(新版训练)_云淘科技
使用PyCharm ToolKit(latest版本)工具,可以快速将本地开发的训练代码,提交至ModelArts侧进行训练。
前提条件
在本地PyCharm中已有训练代码工程。
已在OBS中创建桶和文件夹,用于存放数据集和训练输出模型。 例如:创建命名为“test-modelarts2”的桶,创建文件夹“dataset-mnist”和“mnist-output”。训练作业使用的数据已上传至OBS,且OBS与ModelArts在同一区域。
已配置credential,详细请参考使用访问密钥登录。
使用PyCharm ToolKit(latest版本)提交训练作业,仅限于新版训练作业,不支持旧版训练作业。
准备数据
训练代码工程案例请参考:在gitee的ModelArts-Lab工程中,单击“克隆/下载”,然后单击“下载ZIP”,下载工程。解压缩“ModelArts-Lab-master.zip”文件,然后在“\ModelArts-Lab-master\official_examples\Using_MXNet_to_Create_a_MNIST_Dataset_Recognition_Application\codes”目录中获取到训练代码文件“train_mnist.py”。
数据集案例请参考:从MNIST官网下载“Mnist-Data-Set”数据集至本地,然后解压zip包,将“Mnist-Data-Set”文件夹下的所有文件上传至“test-modelarts2/dataset-mnist”OBS路径下。
配置训练作业参数
在PyCharm中,打开训练代码工程和训练启动文件,然后在菜单栏中选择“ModelArts > Training Job > New…”。
图1 选择作业配置
在弹出的对话框中,设置训练作业相关参数,详细参数说明请参见表1。
参数 |
说明 |
---|---|
Job Name |
训练作业的名称。 系统会自动生成一个名称,您可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 |
Job Description |
训练作业的简要描述。 |
Algorithm Source |
训练算法来源,分为“常用框架”和“自定义镜像”两种,二者选一项即可。 常用框架指使用ModelArts训练管理中支持的常用AI引擎,当前支持的引擎列表请参见训练管理支持的常用框架。 如果您使用的AI引擎为支持列表之外的,建议使用自定义镜像的方式创建训练作业。 |
AI Engine |
选择代码使用的AI引擎及其版本。支持的AI引擎与ModelArts管理控制台里训练管理支持的常用框架一致。 |
Boot File Path |
训练启动文件,所选启动文件必须是当前PyCharm训练工程中的文件。当“Algorithm Souce”选“Frequently-used”时,显示此参数。 |
Code Directory |
训练代码目录,系统会自动填写为训练启动文件所在的目录,用户可根据需要修改,所选目录必须是当前工程中的目录且包含启动文件。 当算法来源为自定义镜像,训练代码已预置在镜像中时,该参数可以为空。 |
Image Path(optional) |
SWR镜像的URL地址,例如swr.cn-north-4.myhuaweicloud.com/image-org/image-name:version。关于自定义镜像的说明,请参见自定义镜像介绍。 |
Boot Command |
启动本次训练作业的运行命令。例如“bash /home/work/run_train.sh python {python启动文件及参数}”。当“Algorithm Souce”选“Custom”时,显示此参数。 当用户输入的命令中不包含“–data_url”和“–train_url”参数时,工具在提交训练作业时会在命令后面自动添加这两个参数,分别对应存储训练数据的OBS路径和存放训练输出的OBS路径。 |
Data OBS Path |
设置为存储训练数据的OBS路径,例如“/test-modelarts2/mnist/dataset-mnist/”,其中“test-modelarts2”为桶名称。 |
Training OBS Path |
设置OBS路径,该路径下会自动创建用于存放训练输出模型和训练日志的目录。 |
Running Parameters |
运行参数。如果您的代码需要添加一些运行参数,可以在此处添加,多个运行参数使用英文分号隔开, 例如”key1=value1;key2=value2″。此参数也可以不设置,即保持为空。 |
Specifications |
训练使用资源类型。目前支持公共资源池和专属资源池两种类型。 专属资源池规格以“Dedicated Resource Pool”标识。只有购买了专属资源池的用户才会显示专属资源池规格。 |
Compute Nodes |
计算资源节点个数。数量设置为1时,表示单机运行;数量设置大于1时,表示后台的计算模式为分布式。 |
Available/Total Nodes |
当“Specifications”选择专属资源池规格时,显示专属资源池的可用节点数和总节点数,用户选择“Compute Nodes”的个数不要超过可用节点数。 |
图2 配置训练作业参数(公共资源池)
图3 配置训练作业参数(专属资源池)
图4 配置训练作业参数(自定义镜像)
参数填写完成后,单击“Apply and Run”。即自动上传本地代码至云端并启动训练,在工具下方的Training Log区域,会实时展示训练作业运行情况。当训练日志中出现“Current training job status: Successful”类似信息时,表示训练作业运行成功。
在单击“Apply and Run”按钮后,系统将自动开始执行训练作业。如果您想停止此作业,可以选择菜单栏中的“ModelArts > Training Job >Stop”停止此作业。
如果单击“Apply”,不会直接启动运行,只是保存训练作业的设置,如果需要启动作业,可以单击“Apply and Run”。
图5 训练日志展示样例
父主题: PyCharm Toolkit提交训练作业
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家