华为云AI开发平台ModelArts创建处理任务_云淘科技

功能介绍

创建处理任务,支持创建“特征分析”任务和“数据处理”两大类任务。可通过指定请求体中的复合参数“template”的“id”字段来创建某类任务。

“特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。

“数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。“数据处理”又分为“数据校验”、“数据清洗”、“数据选择”和“数据增强”四类。

“数据校验”表示对数据集进行校验,保证数据合法。

“数据清洗”表示对数据进行去噪、纠错或补全的过程。

“数据选择”表示从全量数据中选择数据子集的过程。

“数据增强”表示通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。

调试

您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。

URI

POST /v2/{project_id}/processor-tasks

表1 路径参数

参数

是否必选

参数类型

描述

project_id

String

用户项目ID。获取方法请参见获取项目ID和名称。

请求参数

表2 请求Body参数

参数

是否必选

参数类型

描述

create_version

Boolean

创建任务时是否同步创建一个任务版本。该参数仅创建数据处理任务时需要设为“true”,其他类型任务均设为“false”或不设。可选值如下:

true:创建任务时同步创建一个任务版本

false:创建任务时不创建任务版本(默认值)

data_source

ProcessorDataSource object

数据来源,与inputs二选一。数据源路径不支持设置为KMS加密桶中的OBS路径。

description

String

数据处理任务描述,长度为0-256位,不能包含^!=&”‘特殊字符。

inputs

Array of ProcessorDataSource objects

数据来源列表,与data_source二选一。数据源路径不支持设置为KMS加密桶中的OBS路径。

name

String

数据处理任务名称。

template

TemplateParam object

数据处理模板,如算法ID和参数等。

version_id

String

数据集版本ID。

work_path

WorkPath object

数据处理任务的工作目录。工作目录不支持设置为KMS加密桶中的OBS路径。

workspace_id

String

工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。

表3 ProcessorDataSource

参数

是否必选

参数类型

描述

name

String

数据集的名称。

source

String

数据源所在路径。可选值如下:

如果type是OBS,source为OBS路径。

如果type是TASK,source为任务ID。

如果type是DATASET,source为数据集ID。

如果type是CUSTOM且是资源租户调用,source为真实用户的project_id, 否则不需要这个字段。

type

String

数据源类型。可选值如下:

OBS:数据来源于OBS

TASK:数据处理任务

DATASET:数据集

CUSTOM:资源租户调用

version_id

String

数据集的版本。

version_name

String

数据集的版本名称。

表4 TemplateParam

参数

是否必选

参数类型

描述

id

String

任务类型,即数据处理模板ID。可选值如下:

sys_data_analyse:特征分析

sys_data_cleaning:数据清洗

sys_data_augmentation:数据增强

sys_data_validation:数据校验

sys_data_selection:数据筛选

name

String

模板名称。

operator_params

Array of OperatorParam objects

算子的参数列表。

表5 OperatorParam

参数

是否必选

参数类型

描述

advanced_params_switch

Boolean

高级参数开关。

id

String

算子ID。

name

String

算子名称。

params

Object

算子参数,参数类型是map,object目前只支持Boolean、Integer、Long、String、List[/topic/body/section/table/tgroup/tbody/row/entry/p/br {“”}) (br]、Map类型。对于数据预处理任务比较特殊的两个场景物体检测和图像分类,键“task_type”对应的值为“object_detection”或“image_classification”。

表6 WorkPath

参数

是否必选

参数类型

描述

name

String

数据集的名称。

output_path

String

输出路径,例如/datasets/demo。

path

String

工作路径。可选值如下:

如果type是OBS,source为OBS路径。

如果type是DATASET,source为数据集ID。

type

String

工作路径的类型。可选值如下:

OBS:OBS路径

DATASET:数据集

version_id

String

数据集的版本。

version_name

String

数据集的版本名称,名称仅包含数字、字母、中划线和下划线,长度是0-32位。

响应参数

状态码: 200

表7 响应Body参数

参数

参数类型

描述

task_id

String

数据处理任务ID。

请求示例

创建特征分析任务。设置任务类型为“sys_data_analyse”。

{
  "name" : "V001",
  "description" : "",
  "data_source" : {
    "type" : "DATASET",
    "source" : "X6c3N3eztX7cr3Arvqu"
  },
  "template" : {
    "id" : "sys_data_analyse",
    "operator_params" : [ {
      "id" : "sys_data_analyse",
      "params" : {
        "op_list" : [ ]
      }
    } ]
  },
  "version_id" : "J4Eh2FDEWH1qnDlD3hQ"
}

创建数据处理(数据校验)任务。设置任务类型为“sys_data_validation”。

{
  "name" : "PRE-e77c",
  "inputs" : [ {
    "type" : "DATASET",
    "source" : "PYc9H2HGv5BJNwBGXyK",
    "version_id" : "yoJ5ssClpNlOrsjjFDa"
  } ],
  "work_path" : {
    "type" : "DATASET",
    "path" : "PYc9H2HGv5BJNwBGXyK",
    "version_name" : "V0010"
  },
  "description" : "",
  "create_version" : true,
  "template" : {
    "id" : "sys_data_validation",
    "operator_params" : [ {
      "name" : "MetaValidation",
      "advanced_params_switch" : false,
      "params" : {
        "task_type" : "image_classification",
        "dataset_type" : "manifest",
        "source_service" : "select",
        "filter_func" : "data_validation_select",
        "image_max_width" : "1920",
        "image_max_height" : "1920",
        "total_status" : "[0,1,2]"
      }
    } ]
  },
  "workspace_id" : "0"
}

创建数据处理(数据清洗)任务。设置任务类型为“sys_data_cleaning”。

{
  "name" : "PRE-330f",
  "inputs" : [ {
    "type" : "DATASET",
    "source" : "gfghHSokody6AJigS5A",
    "version_id" : "54IXbeJhfttGpL46lbv"
  } ],
  "work_path" : {
    "type" : "DATASET",
    "path" : "gfghHSokody6AJigS5A",
    "version_name" : "V004"
  },
  "description" : "",
  "create_version" : true,
  "template" : {
    "id" : "sys_data_cleaning",
    "operator_params" : [ {
      "name" : "PCC",
      "advanced_params_switch" : false,
      "params" : {
        "task_type" : "image_classification",
        "dataset_type" : "manifest",
        "source_service" : "select",
        "filter_func" : "data_cleaning_select",
        "prototype_sample_path" : "obs://test-obs/classify/data/animals/",
        "criticism_sample_path" : "",
        "n_clusters" : "auto",
        "simlarity_threshold" : "0.9",
        "embedding_distance" : "0.2",
        "checkpoint_path" : "/home/work/user-job-dir/test-lxm/resnet_v1_50",
        "total_status" : "[0,2]",
        "do_validation" : "True"
      }
    } ]
  },
  "workspace_id" : "0"
}

创建数据处理(数据筛选)任务。设置任务类型为“sys_data_selection”。

{
  "name" : "PRE-aae5",
  "inputs" : [ {
    "type" : "DATASET",
    "source" : "gLNSdlQ1iAAmPgl0Won",
    "version_id" : "WAVPSYpKE3FggbgRxiK"
  } ],
  "work_path" : {
    "type" : "DATASET",
    "path" : "gLNSdlQ1iAAmPgl0Won",
    "version_name" : "V003"
  },
  "description" : "",
  "create_version" : true,
  "template" : {
    "id" : "sys_data_selection",
    "operator_params" : [ {
      "name" : "SimDeduplication",
      "advanced_params_switch" : false,
      "params" : {
        "task_type" : "image_classification",
        "dataset_type" : "manifest",
        "source_service" : "select",
        "filter_func" : "data_deduplication_select",
        "simlarity_threshold" : "0.9",
        "total_status" : "[0,2]",
        "do_validation" : "True"
      }
    } ]
  },
  "workspace_id" : "0"
}

创建数据处理(数据增强)任务。设置任务类型为“sys_data_augmentation”。

{
  "name" : "PRE-637c",
  "inputs" : [ {
    "type" : "DATASET",
    "source" : "XGrRZuCV1qmMxnsmD5u",
    "version_id" : "kjPDTOSi6BQqhtXZlFv"
  } ],
  "work_path" : {
    "type" : "DATASET",
    "path" : "XGrRZuCV1qmMxnsmD5u",
    "version_name" : "V002"
  },
  "description" : "",
  "create_version" : true,
  "template" : {
    "id" : "sys_data_augmentation",
    "operator_params" : [ {
      "name" : "AddNoise",
      "advanced_params_switch" : false,
      "params" : {
        "task_type" : "image_classification",
        "dataset_type" : "manifest",
        "AddNoise" : "1",
        "noise_type" : "Gauss",
        "loc" : "0",
        "scale" : "1",
        "lam" : "2",
        "p" : "0.01",
        "total_status" : "[3]",
        "filter_func" : "data_augmentation",
        "do_validation" : "True"
      }
    } ]
  },
  "workspace_id" : "0"
}

响应示例

状态码: 200

OK

{
  "task_id" : "SNEJua7qdZZN8GvkcEr"
}

状态码

状态码

描述

200

OK

401

Unauthorized

403

Forbidden

404

Not Found

错误码

请参见错误码。

父主题: 数据管理(旧版)

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家