华为云AI开发平台ModelArts发布数据集_云淘科技
ModelArts在数据集管理过程中,针对同一个数据源,对不同时间标注后的数据,按版本进行区分,方便后续模型构建和开发过程中,选择对应的数据集版本进行使用。数据标注完成后,您可以将数据集当前状态进行发布,生成一个新的数据集版本。
关于数据集版本
针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。
数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。
您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。
针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。
表格数据集暂不支持切换版本。
发布数据集
登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理>数据集”,进入“数据集”管理页面。
在数据集列表中,单击操作列的“发布”。
或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。
在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。
参数 |
描述 |
---|---|
“版本名称” |
默认按V001、V002递增规则进行命名,您也可以自定义版本名称。版本名称只能包含字母、数字、中划线或下划线。 |
“版本格式” |
仅“表格”类型数据集支持设置版本格式,支持“CSV”和“CarbonData”两种。 说明: 如果导出的CSV文件中存在以“=”“+”“-”和“@”开头的命令时,为了安全考虑,ModelArts会自动加上Tab键,并对双引号进行转义处理。 |
“数据切分” |
仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 默认不启用。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用于训练模型的样本数据比例;“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。 |
“描述” |
针对当前发布的数据集版本的描述信息。 |
“开启难例属性” |
仅“图像分类”和“物体检测”类型数据集支持难例属性。 默认不开启。启用后,会将此数据集的难例属性等信息写入对应的Manifest文件中。 |
图1 发布数据集
版本发布后,您可以前往版本管理查看详细信息。系统默认将最新的版本作为当前目录。
数据集发布后,相关文件的目录结构说明
由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。
以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。
|-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- VersionMame2 ... |-- ...
以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。
|-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotation |-- file1.xml |-- VersionMame2 ... |-- ...
以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。
视频标注的关键帧存在数据集的输入目录下。
|-- user-specified-input-path |-- images |-- videoName1 |-- videoName1.timestamp.jpg |-- videoName2 |-- videoName2.timestamp.jpg
父主题: 数据管理(旧版即将下线)
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家