华为云AI开发平台ModelArts创建数据集导出任务_云淘科技
功能介绍
创建数据集导出任务,可导出至OBS或新数据集。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
POST /v2/{project_id}/datasets/{dataset_id}/export-tasks
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
dataset_id |
是 |
String |
数据集ID。 |
project_id |
是 |
String |
用户项目ID。获取方法请参见获取项目ID和名称。 |
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
annotation_format |
否 |
String |
标注格式。当前可取以下值: VOC:VOC格式 COCO:COCO格式 |
export_format |
否 |
Integer |
导出的目录格式。可选值如下: 1:树状结构。如:rabbits/1.jpg,bees/2.jpg。 2:平铺结构。如:1.jpg, 1.txt;2.jpg,2.txt。 |
export_params |
否 |
ExportParams object |
导出数据集任务的参数。 |
export_type |
否 |
Integer |
导出类型。可选值如下: 0:已标注 1:未标注 2:全部 3:条件筛选 |
path |
否 |
String |
导出到OBS的输出路径。导出数据到OBS或者导出为新的数据集时该参数必传。 |
sample_state |
否 |
String |
样本状态。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WORKFORCE_SAMPLED__:已采样 __WORKFORCE_SAMPLED_UNCHECK__:采样待验收 __WORKFORCE_SAMPLED_CHECKED__:采样已验收 __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过 __WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 |
source_type_header |
否 |
String |
指定导出标注文件中的OBS路径前缀,默认为“obs://”,支持指定“s3://”。由于训练无法解析以“obs”开头图片路径,需要导出manifest中的路径前缀为“s3://”。 |
status |
否 |
Integer |
任务状态。 |
task_id |
否 |
String |
任务ID。 |
version_format |
否 |
String |
数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 |
version_id |
否 |
String |
数据集版本ID。当导出数据集某一版本的数据时,需要指定该参数。 |
with_column_header |
否 |
Boolean |
导出时是否将列名写到CSV文件的第一行,对于表格数据集有效。可选值如下: true:导出时将列名写到CSV文件的第一行(默认值) false:导出时不将列名写到CSV文件的第一行 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
clear_hard_property |
否 |
Boolean |
是否清空难例属性。可选值如下: true:清空难例属性(默认值) false:不清空难例属性 |
export_dataset_version_format |
否 |
String |
导出数据集版本的格式。 |
export_dataset_version_name |
否 |
String |
导出数据集版本的名称。 |
export_dest |
否 |
String |
数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 |
export_new_dataset_name |
否 |
String |
导出新数据集的名称。 |
export_new_dataset_work_path |
否 |
String |
导出新数据集的工作目录。 |
ratio_sample_usage |
否 |
Boolean |
指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下: true:主动随机分配训练集-验证集 false:不主动随机分配训练集-验证集(默认值) |
sample_state |
否 |
String |
样本状态。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WORKFORCE_SAMPLED__:已采样 __WORKFORCE_SAMPLED_UNCHECK__:采样待验收 __WORKFORCE_SAMPLED_CHECKED__:采样已验收 __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过 __WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 |
samples |
否 |
Array of strings |
导出的样本ID列表。 |
search_conditions |
否 |
Array of SearchCondition objects |
导出的筛选条件,多个条件之间是或(OR)关系。 |
train_sample_ratio |
否 |
String |
指定发布版本时训练集-验证集的切分比例,默认为1.00,即全部分为训练集。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
coefficient |
否 |
String |
根据难度系数筛选。 |
frame_in_video |
否 |
Integer |
视频中某帧。 |
hard |
否 |
String |
样本级别是否难例。可选值如下: 0:非难例样本 1:难例样本 |
import_origin |
否 |
String |
根据数据来源筛选。 |
kvp |
否 |
String |
CT剂量,通过剂量来筛选。 |
label_list |
否 |
SearchLabels object |
标签搜索条件。 |
labeler |
否 |
String |
标注人。 |
metadata |
否 |
SearchProp object |
通过样本属性搜索。 |
parent_sample_id |
否 |
String |
父样本ID。 |
sample_dir |
否 |
String |
根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。 |
sample_name |
否 |
String |
根据样本名称搜索(含后缀名)。 |
sample_time |
否 |
String |
样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本 yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。 |
score |
否 |
String |
根据置信度筛选。 |
slice_thickness |
否 |
String |
DICOM层厚,通过层厚筛选样本。 |
study_date |
否 |
String |
DICOM扫描时间。 |
time_in_video |
否 |
String |
视频中某个时间。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
labels |
否 |
Array of SearchLabel objects |
标签搜索条件列表。 |
op |
否 |
String |
如要搜索多个标签,则op需要有值;如果只搜索一个标签,则无需指定op的值。可选值如下: OR:或操作 AND:与操作 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
name |
否 |
String |
标签名。 |
op |
否 |
String |
多个属性之间的操作类型。可选值如下: OR:或操作 AND:与操作 |
property |
否 |
Map<String,Array> |
标签属性,是Object格式,存放任意的键值对;key是属性名称,value是取值列表,如value为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。 |
type |
否 |
Integer |
标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
op |
否 |
String |
多个属性值之间的关系。可选值如下: AND:与关系 OR:或关系 |
props |
否 |
Map<String,Array> |
属性的搜索条件,可以有多个属性条件。 |
响应参数
状态码: 200
参数 |
参数类型 |
描述 |
---|---|---|
create_time |
Long |
任务创建时间。 |
error_code |
String |
错误码。 |
error_msg |
String |
错误信息。 |
export_format |
Integer |
导出的目录格式。可选值如下: 1:树状结构。如:rabbits/1.jpg,bees/2.jpg。 2:平铺结构。如:1.jpg, 1.txt;2.jpg,2.txt。 |
export_params |
ExportParams object |
导出数据集任务的参数。 |
export_type |
Integer |
导出类型。可选值如下: 0:已标注 1:未标注 2:全部 3:条件筛选 |
finished_sample_count |
Integer |
已完成的样本数量。 |
path |
String |
导出的输出路径。 |
progress |
Float |
任务当前进度百分比。 |
status |
String |
任务状态。可选值如下: INIT:初始化 RUNNING:运行中 FAILED:已失败 SUCCESSED:已完成 |
task_id |
String |
任务ID。 |
total_sample_count |
Integer |
样本总数量。 |
update_time |
Long |
任务更新时间。 |
version_format |
String |
数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 |
version_id |
String |
数据集版本ID。 |
参数 |
参数类型 |
描述 |
---|---|---|
clear_hard_property |
Boolean |
是否清空难例属性。可选值如下: true:清空难例属性(默认值) false:不清空难例属性 |
export_dataset_version_format |
String |
导出数据集版本的格式。 |
export_dataset_version_name |
String |
导出数据集版本的名称。 |
export_dest |
String |
数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 |
export_new_dataset_name |
String |
导出新数据集的名称。 |
export_new_dataset_work_path |
String |
导出新数据集的工作目录。 |
ratio_sample_usage |
Boolean |
指定切分比例后,是否按指定比例随机分配训练-验证集。可选值如下: true:主动随机分配训练集-验证集 false:不主动随机分配训练集-验证集(默认值) |
sample_state |
String |
样本状态。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WORKFORCE_SAMPLED__:已采样 __WORKFORCE_SAMPLED_UNCHECK__:采样待验收 __WORKFORCE_SAMPLED_CHECKED__:采样已验收 __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过 __WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 |
samples |
Array of strings |
导出的样本ID列表。 |
search_conditions |
Array of SearchCondition objects |
导出的筛选条件,多个条件之间是或(OR)关系。 |
train_sample_ratio |
String |
指定发布版本时训练集-验证集的切分比例,默认为1.00,即全部分为训练集。 |
参数 |
参数类型 |
描述 |
---|---|---|
coefficient |
String |
根据难度系数筛选。 |
frame_in_video |
Integer |
视频中某帧。 |
hard |
String |
样本级别是否难例。可选值如下: 0:非难例样本 1:难例样本 |
import_origin |
String |
根据数据来源筛选。 |
kvp |
String |
CT剂量,通过剂量来筛选。 |
label_list |
SearchLabels object |
标签搜索条件。 |
labeler |
String |
标注人。 |
metadata |
SearchProp object |
通过样本属性搜索。 |
parent_sample_id |
String |
父样本ID。 |
sample_dir |
String |
根据样本所在目录搜索(目录需要以/结尾),只搜索指定目录下的样本,不支持目录递归搜索。 |
sample_name |
String |
根据样本名称搜索(含后缀名)。 |
sample_time |
String |
样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本 yyyyMMdd-yyyyMMdd:搜索指定时间段内添加的样本,格式为“起始日期-结束日期”,查询天数不能超过30天。例如:“20190901-2019091501”表示搜索2019年9月1日至2019年9月15日期间的样本。 |
score |
String |
根据置信度筛选。 |
slice_thickness |
String |
DICOM层厚,通过层厚筛选样本。 |
study_date |
String |
DICOM扫描时间。 |
time_in_video |
String |
视频中某个时间。 |
参数 |
参数类型 |
描述 |
---|---|---|
labels |
Array of SearchLabel objects |
标签搜索条件列表。 |
op |
String |
如要搜索多个标签,则op需要有值;如果只搜索一个标签,则无需指定op的值。可选值如下: OR:或操作 AND:与操作 |
参数 |
参数类型 |
描述 |
---|---|---|
name |
String |
标签名。 |
op |
String |
多个属性之间的操作类型。可选值如下: OR:或操作 AND:与操作 |
property |
Map<String,Array> |
标签属性,是Object格式,存放任意的键值对;key是属性名称,value是取值列表,如value为null表示不根据值搜索,否则搜索的值满足列表中任意一个即可。 |
type |
Integer |
标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 |
参数 |
参数类型 |
描述 |
---|---|---|
op |
String |
多个属性值之间的关系。可选值如下: AND:与关系 OR:或关系 |
props |
Map<String,Array> |
属性的搜索条件,可以有多个属性条件。 |
请求示例
创建导出(导出到OBS)任务
{ "path" : "/test-obs/daoChu/", "export_type" : 3, "export_params" : { "sample_state" : "", "export_dest" : "DIR" } }
创建导出(导出新数据集)任务
{ "path" : "/test-obs/classify/input/", "export_type" : 3, "export_params" : { "sample_state" : "", "export_dest" : "NEW_DATASET", "export_new_dataset_name" : "dataset-export-test", "export_new_dataset_work_path" : "/test-obs/classify/output/" } }
响应示例
状态码: 200
OK
{ "task_id" : "rF9NNoB56k5rtYKg2Y7" }
状态码
状态码 |
描述 |
---|---|
200 |
OK |
401 |
Unauthorized |
403 |
Forbidden |
404 |
Not Found |
错误码
请参见错误码。
父主题: 数据管理(旧版)
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家