华为云AI开发平台ModelArts查询数据集列表_云淘科技
功能介绍
根据指定条件分页查询用户创建的所有数据集。
调试
您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
URI
GET /v2/{project_id}/datasets
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
project_id |
是 |
String |
用户项目ID。获取方法请参见获取项目ID和名称。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
check_running_task |
否 |
Boolean |
是否检测数据集中正在运行(包括初始化)的任务。可选值如下: true:检测数据集中正在运行(包括初始化)的任务 false:不检测数据集中正在运行的任务(默认值) |
contain_versions |
否 |
Boolean |
数据集是否包含版本。 |
dataset_type |
否 |
Integer |
数据集类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注 900:自由格式 |
file_preview |
否 |
Boolean |
查询数据集的同时是否支持预览。可选值如下: true:支持预览,同时返回一部分数据集文件列表,每个数据集返回4个。 false:不支持预览(默认值)。 |
limit |
否 |
Integer |
指定每一页返回的最大条目数,取值范围[1,100],默认为10。 |
offset |
否 |
Integer |
分页列表的起始页,默认为0。 |
order |
否 |
String |
指定查询的排序顺序。可选值如下: asc:递增排序 desc:递减排序(默认值) |
running_task_type |
否 |
Integer |
指定需要检测的正在运行任务(包括初始化)的类型。可选值如下: 0:自动标注 1:预标注 2:导出任务 3:切换版本 4:导出manifest 5:导入manifest 6:发布版本 7:自动分组 |
search_content |
否 |
String |
模糊匹配名称,默认为空。 |
sort_by |
否 |
String |
指定查询的排序方式。可选值如下: create_time:按创建时间排序(默认值) dataset_name:按数据集名称排序 |
support_export |
否 |
Boolean |
是否过滤只支持导出的数据集(当前仅图像分类、物体检测、自由格式三种数据集支持导出),不传该参数或参数取值为false表示不过滤。可选值如下: true:过滤只支持导出的数据集 false:不过滤只支持导出的数据集(默认值) |
train_evaluate_ratio |
否 |
String |
根据版本切分比例筛选数据集。例如:“0.0,1.0”,根据逗号分隔最小和最大切分比例,筛选出切分比例在此范围内的版本。说明:如果参数值为空或无该参数,系统默认不根据版本切分比例筛选数据集。 |
version_format |
否 |
Integer |
根据数据集发布的版本格式筛选数据集,过滤出包含符合筛选条件的数据集列表。可选值如下: 0:默认格式 1:Carbon格式(仅表格数据集支持) 2:CSV格式 |
with_labels |
否 |
Boolean |
返回数据集的标签。可选值如下: true:返回标签信息 false:不返回标签信息(默认值) |
workspace_id |
否 |
String |
工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 |
dataset_version |
否 |
String |
数据集版本(用于区分标注任务解耦前的数据集和解耦后的数据集)。可选值如下: v1:数据集与标注任务解耦前的数据集(默认值) v2:数据集与标注任务解耦后的数据集 all:所有数据集 |
请求参数
无
响应参数
状态码: 200
参数 |
参数类型 |
描述 |
---|---|---|
datasets |
Array of DatasetAndFilePreview objects |
分页查询到的数据集列表。 |
total_number |
Integer |
数据集总数,不能超过100个。 |
参数 |
参数类型 |
描述 |
---|---|---|
annotated_sample_count |
Integer |
数据集已标注的样本总数。 |
annotated_sub_sample_count |
Integer |
已标注的子样本数量。 |
content_labeling |
Boolean |
语音分割数据集是否开启内容标注,默认开启。 |
create_time |
Long |
数据集的创建时间。 |
current_version_id |
String |
数据集的当前版本ID。 |
current_version_name |
String |
数据集的当前版本名称。版本名称,必须是字母、数字、下划线或中划线组成的合法字符串,长度为1-32位。 |
data_format |
String |
数据格式。 |
data_sources |
Array of DataSource objects |
数据来源列表。 |
data_statistics |
Map |
数据集的样本统计信息,包括样本元信息的统计,json格式。 |
data_update_time |
Long |
样本和标签的更新时间。 |
data_url |
String |
训练所用的数据路径。 |
dataset_format |
Integer |
数据集格式。可选值如下: 0:文件型 1:表格型 |
dataset_id |
String |
数据集ID。 |
dataset_name |
String |
数据集名称。 |
dataset_tags |
Array of strings |
数据集关键标识列表,例如:[“图片”,”物体检测”]。 |
dataset_type |
Integer |
数据集类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组 200:声音分类 201:语音内容 202:语音分割 400:表格数据集 600:视频标注 900:自由格式 |
dataset_version_count |
Integer |
数据集的版本数量。 |
deleted_sample_count |
Integer |
已删除的样本数量。 |
deletion_stats |
Map |
删除原因统计信息。 |
description |
String |
数据集的描述。 |
enterprise_project_id |
String |
企业项目ID。 |
exist_running_task |
Boolean |
该数据集是否存在正在运行(包括初始化)的任务。可选值如下: true:数据集存在正在运行的任务 false:数据集不存在正在运行的任务 |
exist_workforce_task |
Boolean |
数据集是否含团队标注任务。可选值如下: true:数据集包含团队标注任务 false:数据集不包含团队标注任务 |
feature_supports |
Array of strings |
数据集支持的特性列表。当前只支持特性值“0”,表示限制OBS文件大小。 |
import_data |
Boolean |
是否导入数据。可选值如下: true:导入数据 false:不导入数据 |
import_task_id |
String |
导入任务ID。 |
inner_annotation_path |
String |
数据集内部标注结果的保存路径。 |
inner_data_path |
String |
数据集内部数据的保存路径。 |
inner_log_path |
String |
数据集内部日志的保存路径。 |
inner_task_path |
String |
数据集内部任务路径。 |
inner_temp_path |
String |
数据集内部临时文件的保存路径。 |
inner_work_path |
String |
数据集内部的输出目录。 |
label_task_count |
Integer |
标注任务数量。 |
labels |
Array of Label objects |
数据集标签列表。 |
loading_sample_count |
Integer |
正在加载的样本数量。 |
managed |
Boolean |
是否是托管数据集。可选值如下: true:托管数据集 false:非托管数据集 |
next_version_num |
Integer |
数据集下个版本数。 |
running_tasks_id |
Array of strings |
正在运行(包括初始化)任务ID列表。 |
samples |
Array of AnnotationFile objects |
样本列表。 |
schema |
Array of Field objects |
Schema列表。 |
status |
Integer |
数据集状态。当前可选值: 0:数据集创建中 1:数据集正常 2:数据集删除中 3:数据集已删除 4:数据集异常 5:数据集同步中 6:数据集发布中 7:数据集版本切换中 8:数据集导入中 |
third_path |
String |
第三方路径。 |
total_sample_count |
Integer |
数据集样本总数。 |
total_sub_sample_count |
Integer |
由父样本所产生的子样本总数,比如:从视频标注数据集中抽取的关键帧图片总数就是子样本总数。 |
unconfirmed_sample_count |
Integer |
智能标注待确认的标注样本数。 |
update_time |
Long |
数据集的更新时间。 |
versions |
Array of DatasetVersion objects |
数据集版本信息列表,目前仅记录数据集当前版本信息。 |
work_path |
String |
数据集输出位置,用于存放输出的标注信息等文件。此位置为OBS路径,格式为“/桶名称/文件路径”。例如:“/obs-bucket”。 |
work_path_type |
Integer |
数据集输出路径类型。默认值为0,表示OBS桶。 |
workforce_descriptor |
WorkforceDescriptor object |
团队标注信息。 |
workforce_task_count |
Integer |
数据集的团队标注任务数量。 |
workspace_id |
String |
工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 |
参数 |
参数类型 |
描述 |
---|---|---|
data_path |
String |
数据源所在路径。 |
data_type |
Integer |
数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 |
schema_maps |
Array of SchemaMap objects |
表格数据对应的schema映射信息。 |
source_info |
SourceInfo object |
导入表格数据源所需的信息。 |
with_column_header |
Boolean |
文件中首行是否是列名,用于表格数据集。可选值如下: true:文件首行为列名 false:文件首行不为列名 |
参数 |
参数类型 |
描述 |
---|---|---|
dest_name |
String |
目的方的列名。 |
src_name |
String |
来源方的列名。 |
参数 |
参数类型 |
描述 |
---|---|---|
cluster_id |
String |
MRS集群ID。可登录MRS控制台查看。 |
cluster_mode |
String |
MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 |
cluster_name |
String |
MRS集群名称。可登录MRS控制台查看。 |
database_name |
String |
导入表格数据集,数据库名字。 |
input |
String |
表格数据集,HDFS路径。例如/datasets/demo。 |
ip |
String |
用户GaussDB(DWS)集群的IP地址。 |
port |
String |
用户GaussDB(DWS)集群的端口。 |
queue_name |
String |
表格数据集,DLI队列名。 |
subnet_id |
String |
MRS集群的子网ID。 |
table_name |
String |
导入表格数据集,表名。 |
user_name |
String |
用户名,GaussDB(DWS)数据需提供此参数。 |
user_password |
String |
用户密码,GaussDB(DWS)数据需提供此参数。 |
vpc_id |
String |
MRS集群所在的vpc的ID。 |
参数 |
参数类型 |
描述 |
---|---|---|
attributes |
Array of LabelAttribute objects |
标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。 |
name |
String |
标签名称。 |
property |
LabelProperty object |
标签基本属性键值对,如颜色、快捷键等。 |
type |
Integer |
标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 |
参数 |
参数类型 |
描述 |
---|---|---|
create_time |
Long |
样本创建时间。 |
dataset_id |
String |
数据集ID。 |
depth |
Integer |
图像样本通道数。 |
file_Name |
String |
样本名称。 |
file_id |
String |
样本ID。 |
file_type |
String |
文件类型。 |
height |
Integer |
图像样本高度。 |
size |
Long |
图像样本尺寸大小。 |
tags |
Map |
样本的标签信息。 |
url |
String |
预览样本的OBS地址。 |
width |
Integer |
图像样本宽度。 |
参数 |
参数类型 |
描述 |
---|---|---|
description |
String |
Schema描述。 |
name |
String |
Schema名称。 |
schema_id |
Integer |
Schema ID。 |
type |
String |
Schema值类型。 |
参数 |
参数类型 |
描述 |
---|---|---|
add_sample_count |
Integer |
新增样本数量。 |
analysis_cache_path |
String |
特征分析的缓存路径。 |
analysis_status |
Integer |
特征分析任务的当前状态。可选值如下: 0:初始化 1:运行中 2:完成 3:失败 |
analysis_task_id |
String |
特征分析的任务ID。 |
annotated_sample_count |
Integer |
版本已标注样本的数量。 |
annotated_sub_sample_count |
Integer |
已标注的子样本数量。 |
clear_hard_property |
Boolean |
发布时是否清空难例属性。可选值如下: true:清空难例属性(默认值) false:不清空难例属性 |
code |
String |
旋转裁剪等预处理任务的状态码。 |
create_time |
Long |
版本创建时间。 |
crop |
Boolean |
是否对图片进行裁剪,只对标注框形状为bndbox的物体检测数据集有效。可选值如下: true:对图片进行裁剪 false:不对图片进行裁剪(默认值) |
crop_path |
String |
裁剪后的文件存放路径。 |
crop_rotate_cache_path |
String |
旋转裁剪任务执行的临时目录。 |
data_analysis |
Map |
特征分析结果,json格式。 |
data_path |
String |
数据保存路径。 |
data_statistics |
Map |
数据集的样本统计信息,包括样本元信息的统计,json格式。 |
data_validate |
Boolean |
发布前数据是否经过校验算法校验。可选值如下: true:数据经过校验 false:数据未经过校验 |
deleted_sample_count |
Integer |
已删除的样本数量。 |
deletion_stats |
Map |
删除原因统计信息。 |
description |
String |
版本描述信息。 |
export_images |
Boolean |
发布时是否导出图片到版本输出目录。可选值如下: true:导出图片到版本输出目录 false:不导出图片到版本输出目录(默认值) |
extract_serial_number |
Boolean |
发布时是否需要解析子样本序号,用于医疗数据集。可选值如下: true:解析子样本序号 false:不解析子样本序号(默认值) |
include_dataset_data |
Boolean |
发布时是否包含数据集源数据。可选值如下: true:包含数据集源数据 false:不包含数据集源数据 |
is_current |
Boolean |
是否为数据集当前版本。可选值如下: true:数据集当前版本 false:非数据集当前版本 |
label_stats |
Array of LabelStats objects |
发布版本的各标签统计信息列表。 |
label_type |
String |
发布版本的标签类型。可选值如下: multi:表示含有多标签样本 single:表示所有样本均为单标签 |
manifest_cache_input_path |
String |
版本发布时的manifest文件缓存输入路径。 |
manifest_path |
String |
版本发布的manifest文件保存路径。 |
message |
String |
发布时记录的任务信息(如:错误信息等)。 |
modified_sample_count |
Integer |
已修改的样本数量。 |
previous_annotated_sample_count |
Integer |
父版本的已标注样本数量。 |
previous_total_sample_count |
Integer |
父版本的样本总数。 |
previous_version_id |
String |
父版本ID。 |
processor_task_id |
String |
旋转裁剪等预处理任务ID。 |
processor_task_status |
Integer |
旋转裁剪等预处理任务状态。当前可选值如下: 0:初始化 1:运行中 2:完成 3:失败 4:停止 5:超时 6:删除失败 7:停止失败 |
remove_sample_usage |
Boolean |
发布时是否清除数据集已有的usage信息。可选值如下: true:清除数据集已有的usage信息(默认值) false:不清除数据集已有的usage信息 |
rotate |
Boolean |
是否对图片进行旋转。可选值如下: true:对图片进行旋转 false:不对图片进行旋转(默认值) |
rotate_path |
String |
旋转后的文件存放路径。 |
sample_state |
String |
样本状态。可选样本状态如下: __ALL__:已标注 __NONE__:未标注 __UNCHECK__:待验收 __ACCEPTED__:验收通过 __REJECTED__:已驳回 __UNREVIEWED__:待审核 __REVIEWED__:已审核 __WORKFORCE_SAMPLED__:已采样 __WORKFORCE_SAMPLED_UNCHECK__:采样待验收 __WORKFORCE_SAMPLED_CHECKED__:采样已验收 __WORKFORCE_SAMPLED_ACCEPTED__:采样已通过 __WORKFORCE_SAMPLED_REJECTED__:采样已驳回 __AUTO_ANNOTATION__:待确认 |
start_processor_task |
Boolean |
发布时是否启动数据分析任务。可选值如下: true:发布时启动特征分析任务 false:发布时不启动特征分析任务(默认值) |
status |
Integer |
数据集版本状态。可选值如下: 0:创建中 1:运行中 2:删除中 3:已删除 4:错误 |
tags |
Array of strings |
版本关键标识列表,标注任务发布版本时将标注类型作为默认标签。如:[“图片”,”物体检测”]。 |
task_type |
Integer |
发布版本的标注任务类型,同数据集类型。 |
total_sample_count |
Integer |
版本样本总数。 |
total_sub_sample_count |
Integer |
从父样本生成的子样本总数。 |
train_evaluate_sample_ratio |
String |
发布版本时切分训练验证比例,默认为1.00,即全部分为训练集。 |
update_time |
Long |
版本更新时间。 |
version_format |
String |
数据集版本格式。可选值如下: Default:默认格式 CarbonData:Carbon格式(仅表格数据集支持) CSV:CSV格式 |
version_id |
String |
数据集版本ID。 |
version_name |
String |
数据集版本名称。 |
with_column_header |
Boolean |
发布的CSV文件的第一行是否为列名,对于表格数据集有效。可选值如下: true:发布的CSV文件的第一行是列名 false:发布的CSV文件的第一行不是列名 |
参数 |
参数类型 |
描述 |
---|---|---|
attributes |
Array of LabelAttribute objects |
标签的多维度属性,如标签为“音乐”,可能包含属性“风格”、“歌手”等。 |
count |
Integer |
该标签的打标数量。 |
name |
String |
标签名称。 |
property |
LabelProperty object |
标签基本属性键值对,如颜色、快捷键等。 |
sample_count |
Integer |
包含该标签的样本数量。 |
type |
Integer |
标签类型。可选值如下: 0:图像分类 1:物体检测 3: 图像分割 100:文本分类 101:命名实体 102:文本三元组关系标签 103:文本三元组实体标签 200:语音分类 201:语音内容 202:语音分割 600:视频标注 |
参数 |
参数类型 |
描述 |
---|---|---|
default_value |
String |
标签属性默认值。 |
id |
String |
标签属性ID。可通过调用标签列表查询。 |
name |
String |
标签属性名称。不能超过64个字符,不能包含字符!=&”‘。 |
type |
String |
标签属性类型。可选值如下: text:文本 select:单选下拉列表 |
values |
Array of LabelAttributeValue objects |
标签属性值列表。 |
参数 |
参数类型 |
描述 |
---|---|---|
id |
String |
标签属性值ID。 |
value |
String |
标签属性值。 |
参数 |
参数类型 |
描述 |
---|---|---|
@modelarts:color |
String |
内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 |
@modelarts:default_shape |
String |
内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下: bndbox:矩形。 polygon:多边形。 circle:圆形。 line:直线。 dashed:虚线。 point:点。 polyline:折线。 |
@modelarts:from_type |
String |
内置属性:三元组关系标签的起始实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
@modelarts:rename_to |
String |
内置属性:重命名后的标签名。 |
@modelarts:shortcut |
String |
内置属性:标签快捷键,默认为空。例如:“D”。 |
@modelarts:to_type |
String |
内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 |
参数 |
参数类型 |
描述 |
---|---|---|
current_task_id |
String |
团队标注任务ID。 |
current_task_name |
String |
团队标注任务名称。 |
reject_num |
Integer |
驳回的样本数。 |
repetition |
Integer |
每个样本由多少人标注,最少为1。 |
is_synchronize_auto_labeling_data |
Boolean |
是否同步更新智能标注数据。可选值如下: true:同步更新智能标注数据 false:不同步更新智能标注数据 |
is_synchronize_data |
Boolean |
是否同步更新数据:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下: true:同步更新数据至团队成员 false:不同步更新数据至团队成员 |
workers |
Array of Worker objects |
标注成员列表。 |
workforce_id |
String |
标注团队ID。 |
workforce_name |
String |
标注团队名称。 |
参数 |
参数类型 |
描述 |
---|---|---|
create_time |
Long |
创建时间。 |
description |
String |
标注成员描述,长度为0-256位,不能包含^!=&”‘特殊字符。 |
|
String |
标注成员邮箱。 |
role |
Integer |
角色。可选值如下: 0:打标者 1:审核者 2:团队管理者 3:数据集拥有者 |
status |
Integer |
标注成员的当前登录状态。可选值如下: 0:未发送邀请邮件 1:已发送邀请邮件但未登录 2:已登录 3:标注成员已删除 |
update_time |
Long |
更新时间。 |
worker_id |
String |
标注成员ID。 |
workforce_id |
String |
所属标注团队ID。 |
请求示例
查询数据集列表
GET https://{endpoint}/v2/{project_id}/datasets?offset=0&limit=10&sort_by=create_time&order=desc&dataset_type=0&file_preview=true
响应示例
状态码: 200
OK
{ "total_number" : 1, "datasets" : [ { "dataset_id" : "gfghHSokody6AJigS5A", "dataset_name" : "dataset-f9e8", "dataset_type" : 0, "data_format" : "Default", "next_version_num" : 4, "status" : 1, "data_sources" : [ { "data_type" : 0, "data_path" : "/test-obs/classify/input/animals/" } ], "create_time" : 1605690595404, "update_time" : 1605690595404, "description" : "", "current_version_id" : "54IXbeJhfttGpL46lbv", "current_version_name" : "V003", "total_sample_count" : 10, "annotated_sample_count" : 10, "work_path" : "/test-obs/classify/output/", "inner_work_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/", "inner_annotation_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/", "inner_data_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/data/", "inner_log_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/logs/", "inner_temp_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/temp/", "inner_task_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/task/", "work_path_type" : 0, "workspace_id" : "0", "enterprise_project_id" : "0", "exist_running_task" : false, "exist_workforce_task" : false, "running_tasks_id" : [ ], "workforce_task_count" : 0, "feature_supports" : [ "0" ], "managed" : false, "import_data" : false, "label_task_count" : 1, "dataset_format" : 0, "content_labeling" : true, "samples" : [ { "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/15.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=tuUo9jl6lqoMKAwNBz5g8dxO%2FdE%3D", "create_time" : 1605690596035 }, { "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/8.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=NITOdBnkUXtdnKuEgDzZpkQzNfM%3D", "create_time" : 1605690596046 }, { "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/9.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=%2BwUo1BL38%2F2d7p7anPi4fNzm1VU%3D", "create_time" : 1605690596050 }, { "url" : "https://test-obs.obs.xxx.com:443/classify/input/animals/7.jpg?AccessKeyId=vprCCTY1NmHudlvC0bXr&Expires=1606100112&Signature=tOrHfcWo%2FEJ0wRzfi1M5Wk2MrXg%3D", "create_time" : 1605690596043 } ] } ] }
状态码
状态码 |
描述 |
---|---|
200 |
OK |
401 |
Unauthorized |
403 |
Forbidden |
404 |
Not Found |
错误码
请参见错误码。
父主题: 数据管理(旧版)
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家