华为云AI开发平台ModelArts创建导入任务_云淘科技

功能介绍

创建数据集的导入任务:从存储系统导入样本、标签到数据集。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/datasets/{dataset_id}/import-tasks

表1 路径参数

参数

是否必选

参数类型

描述

dataset_id

String

数据集ID。

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称。

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

data_source

DataSource object

数据来源。

difficult_only

Boolean

是否只导入难例。可选值如下:

true:只导入难例样本

false:导入全部样本(默认值)

excluded_labels

Array of Label objects

不导入包含指定标签的样本。

final_annotation

Boolean

是否导入到最终状态。可选值如下:

true:导入到最终状态(默认值)

false:不导入到最终状态

import_annotations

Boolean

是否导入标签。可选值如下:

true:导入标签(默认值)

false:不导入标签

import_folder

String

导入后在数据集存储目录下子目录的名称。多次不同导入可以指定同一个子目录,避免相同样本重复导入。注:对表格数据集不可用。

import_origin

String

数据来源。可选值如下:

obs:OBS桶(默认值)

dws:GaussDB(DWS)服务

dli:DLI服务

rds:RDS服务

mrs:MRS服务

inference:推理服务

import_path

String

导入的OBS路径或manifest路径。

导入manifest时,path必须精确到具体manifest文件。

导入为目录时,目前仅支持数据集类型为图片分类、物体检测、文本分类、声音分类。

import_samples

Boolean

是否导入样本。可选值如下:

true:导入样本(默认值)

false:不导入样本

import_type

String

导入方式。可选值如下:

dir:目录导入

manifest:按manifest文件导入

included_labels

Array of Label objects

导入包含指定标签的样本。

label_format

LabelFormat object

标签格式,此参数仅文本类数据集使用。

with_column_header

Boolean

文件中首行是否是列名,若是列名则不导入首行,用于表格数据集。可选值如下:

true:文件首行为列名

false:文件首行不为列名(默认值)

表3 DataSource

参数

是否必选

参数类型

描述

data_path

String

数据源所在路径。

data_type

Integer

数据类型。可选值如下:

0:OBS桶(默认值)

1:GaussDB(DWS)服务

2:DLI服务

3:RDS服务

4:MRS服务

5:AI Gallery

6:推理服务

schema_maps

Array of SchemaMap objects

表格数据对应的schema映射信息。

source_info

SourceInfo object

导入表格数据源所需的信息。

with_column_header

Boolean

文件中首行是否是列名,用于表格数据集。可选值如下:

true:文件首行为列名

false:文件首行不为列名

表4 SchemaMap

参数

是否必选

参数类型

描述

dest_name

String

目的方的列名。

src_name

String

来源方的列名。

表5 SourceInfo

参数

是否必选

参数类型

描述

cluster_id

String

MRS集群ID。可登录MRS控制台查看。

cluster_mode

String

MRS集群运行模式。可选值如下:

0:普通集群

1:安全集群

cluster_name

String

MRS集群名称。可登录MRS控制台查看。

database_name

String

导入表格数据集,数据库名字。

input

String

表格数据集,HDFS路径。例如/datasets/demo。

ip

String

用户GaussDB(DWS)集群的IP地址。

port

String

用户GaussDB(DWS)集群的端口。

queue_name

String

表格数据集,DLI队列名。

subnet_id

String

MRS集群的子网ID。

table_name

String

导入表格数据集,表名。

user_name

String

用户名,GaussDB(DWS)数据需提供此参数。

user_password

String

用户密码,GaussDB(DWS)数据需提供此参数。

vpc_id

String

MRS集群所在的vpc的ID。

表6 Label

参数

是否必选

参数类型

描述

attributes

Array of LabelAttribute objects

标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。

name

String

标签名称。

property

LabelProperty object

标签基本属性键值对,如颜色、快捷键等。

type

Integer

标签类型。可选值如下:

0:图像分类

1:物体检测

3: 图像分割

100:文本分类

101:命名实体

102:文本三元组关系标签

103:文本三元组实体标签

200:语音分类

201:语音内容

202:语音分割

600:视频标注

表7 LabelAttribute

参数

是否必选

参数类型

描述

default_value

String

标签属性默认值。

id

String

标签属性ID。可通过调用标签列表查询。

name

String

标签属性名称。不能超过64个字符,不能包含字符!=&”‘。

type

String

标签属性类型。可选值如下:

text:文本

select:单选下拉列表

values

Array of LabelAttributeValue objects

标签属性值列表。

表8 LabelAttributeValue

参数

是否必选

参数类型

描述

id

String

标签属性值ID。

value

String

标签属性值。

表9 LabelProperty

参数

是否必选

参数类型

描述

@modelarts:color

String

内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。

@modelarts:default_shape

String

内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下:

bndbox:矩形。

polygon:多边形。

circle:圆形。

line:直线。

dashed:虚线。

point:点。

polyline:折线。

@modelarts:from_type

String

内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

@modelarts:rename_to

String

内置属性:重命名后的标签名。

@modelarts:shortcut

String

内置属性:标签快捷键,默认为空。例如:“D”。

@modelarts:to_type

String

内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。

表10 LabelFormat

参数

是否必选

参数类型

描述

label_type

String

文本分类的标签类型。可选值如下:

0:标签和文本分离,以固定后缀“_result”区分。如:文本文件是“abc.txt”,标签文件是“abc_result.txt”。

1:默认值,标签和文本在一个文件内,以分隔符分离。文本与标签,标签与标签之间的分隔符可通过text_sample_separator和text_label_separator指定。

text_label_separator

String

标签与标签之间的分隔符,默认为逗号分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/’:.;,”其中的某一字符。

text_sample_separator

String

文本与标签之间的分隔符,默认为Tab键分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/’:.;,”其中的某一字符。

响应参数

状态码: 200

表11 响应Body参数

参数

参数类型

描述

task_id

String

导入任务ID。

请求示例

创建导入(从OBS导入)任务

{
  "import_type" : "dir",
  "import_path" : "s3://test-obs/daoLu_images/animals/",
  "included_labels" : [ ],
  "import_annotations" : false,
  "difficult_only" : false
}

创建导入(从Manifest导入)任务

{
  "import_type" : "manifest",
  "import_path" : "s3://test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/V002/V002.manifest",
  "included_labels" : [ "rabbits", "bees", "Rabbits", "Bees" ],
  "import_annotations" : true,
  "difficult_only" : false
}

响应示例

状态码: 200

OK

{
  "task_id" : "gfghHSokody6AJigS5A_m1dYqOw8vWCAznw1V28"
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码。

父主题: 数据管理(旧版)

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家