
故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节…
AI开发平台ModelArts
故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节…
由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的数据添加标签。您可以通过创建单人标注作业或团队标注作业对数据进行手工标注,或对任务启动智能标注添加标签,快速完成对图片的标注操作,也可以对已标注图片修改或删除标签进行重新…
首先配置用户登录信息 如果在Step2 制作自定义镜像已配置用户鉴权信息,则可直接跳过此步骤,执行新镜像调试操作。 首先配置鉴权信息,根据提示帐号、用户名、密码和局点。更多信息请查看配置登录信息。 ma-cli configure 执行后,…
调试完成后,将新镜像注册到ModelArts镜像管理服务中,进而能够在ModelArts中使用该镜像。 将镜像推到SWR 推送前需要登录SWR,请参考登录SWR。登录后使用docker push命令进行推送,如下: docker push …
数据管理模块即将下线,对未使用过数据管理的用户不可见。 数据集的类型 当前ModelArts支持如下格式的数据集。 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像…
ModelArts平台提供了Tensorflow,Pytorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训…
ModelArts的开发环境Notebook、训练作业、模型推理(即AI应用管理和部署上线)支持的AI框架及其版本,不同模块的呈现方式存在细微差异,各模块支持的AI框架请参见如下描述。 开发环境Notebook 开发环境的Notebook,…
TensorFlow存在两种接口类型,keras接口和tf接口,其训练和保存模型的代码存在差异,但是推理代码编写方式一致。 训练模型(keras接口) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18…
这一节描述如何编写一个Dockerfile,并据此构建出一个新镜像在Notebook创建实例并使用。关于Dockerfile的具体编写方法,请参考官网。 前提条件 已参考Step1 准备Docker机器并配置环境信息完成docker机器准备…
已有镜像迁移至新版训练管理需要关注如下步骤。 为镜像增加新版训练管理的默认用户组 ma-group, gid = 100。 若已存在 gid = 100 用户组,可能会报错“groupadd: GID ‘100’ a…