华为云AI开发平台ModelArts查询数据集详情_云淘科技

AI开发平台ModelArts

12 月 14, 2023

152 0

功能介绍

查询数据集详情。

调试

您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。

URI

GET /v2/{project_id}/datasets/{dataset_id}

表1 路径参数
参数	是否必选	参数类型	描述
dataset_id	是	String	数据集ID。
project_id	是	String	用户项目ID。获取方法请参见获取项目ID和名称。

表2 Query参数
参数	是否必选	参数类型	描述
check_running_task	否	Boolean	是否检测数据集中正在运行（包括初始化）的任务。可选值如下： true：检测数据集中正在运行（包括初始化）的任务 false：不检测数据集中正在运行的任务（默认值）
running_task_type	否	Integer	指定需要检测的正在运行任务（包括初始化）的类型。可选值如下： 0：自动标注 1：预标注 2：导出任务 3：切换版本 4：导出manifest 5：导入manifest 6：发布版本 7：自动分组

请求参数

无

响应参数

状态码： 200

表3 响应Body参数
参数	参数类型	描述
annotated_sample_count	Integer	数据集已标注的样本总数。
annotated_sub_sample_count	Integer	已标注的子样本数量。
content_labeling	Boolean	语音分割数据集是否开启内容标注，默认开启。
create_time	Long	数据集的创建时间。
current_version_id	String	数据集的当前版本ID。
current_version_name	String	数据集的当前版本名称。版本名称，必须是字母、数字、下划线或中划线组成的合法字符串，长度为1-32位。
data_format	String	数据格式。
data_sources	Array of DataSource objects	数据来源列表。
data_statistics	Map	数据集的样本统计信息，包括样本元信息的统计。
data_update_time	Long	样本和标签的更新时间。
dataset_format	Integer	数据集格式。可选值如下： 0：文件型 1：表格型
dataset_id	String	数据集ID。
dataset_name	String	数据集名称。
dataset_tags	Array of strings	数据集关键标识列表，例如：[“图片”,”物体检测”]。
dataset_type	Integer	数据集类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组 200：声音分类 201：语音内容 202：语音分割 400：表格数据集 600：视频标注 900：自由格式
dataset_version_count	Integer	数据集的版本数量。
deleted_sample_count	Integer	已删除的样本数量。
deletion_stats	Map	删除原因统计信息。
description	String	数据集的描述。
enterprise_project_id	String	企业项目ID。
exist_running_task	Boolean	该数据集是否存在正在运行（包括初始化）的任务。可选值如下： true：数据集存在正在运行的任务 false：数据集不存在正在运行的任务
exist_workforce_task	Boolean	数据集是否含团队标注任务。可选值如下： true：数据集包含团队标注任务 false：数据集不包含团队标注任务
feature_supports	Array of strings	数据集支持的特性列表。当前只支持特性值“0”，表示限制OBS文件大小。
import_data	Boolean	是否导入数据。可选值如下： true：导入数据 false：不导入数据
import_task_id	String	导入任务ID。
inner_annotation_path	String	数据集内部标注结果的保存路径。
inner_data_path	String	数据集内部数据的保存路径。
inner_log_path	String	数据集内部日志的保存路径。
inner_task_path	String	数据集内部任务路径。
inner_temp_path	String	数据集内部临时文件的保存路径。
inner_work_path	String	数据集内部的输出目录。
label_task_count	Integer	标注任务数量。
labels	Array of Label objects	数据集标签列表。
loading_sample_count	Integer	正在加载的样本数量。
managed	Boolean	是否是托管数据集。可选值如下： true：托管数据集 false：非托管数据集
next_version_num	Integer	数据集下个版本数。
running_tasks_id	Array of strings	正在运行（包括初始化）任务ID列表。
schema	Array of Field objects	Schema列表。
status	Integer	数据集状态。当前可选值： 0：数据集创建中 1：数据集正常 2：数据集删除中 3：数据集已删除 4：数据集异常 5：数据集同步中 6：数据集发布中 7：数据集版本切换中 8：数据集导入中
third_path	String	第三方路径。
total_sample_count	Integer	数据集样本总数。
total_sub_sample_count	Integer	由父样本所产生的子样本总数，比如：从视频标注数据集中抽取的关键帧图片总数就是子样本总数。
unconfirmed_sample_count	Integer	智能标注待确认的标注样本数。
update_time	Long	数据集的更新时间。
versions	Array of DatasetVersion objects	数据集版本信息列表，目前仅记录数据集当前版本信息。
work_path	String	数据集输出位置，用于存放输出的标注信息等文件。此位置为OBS路径，格式为“/桶名称/文件路径”。例如：“/obs-bucket”。
work_path_type	Integer	数据集输出路径类型。默认值为0，表示OBS桶。
workforce_descriptor	WorkforceDescriptor object	团队标注信息。
workforce_task_count	Integer	数据集的团队标注任务数量。
workspace_id	String	工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。

表4 DataSource
参数	参数类型	描述
data_path	String	数据源所在路径。
data_type	Integer	数据类型。可选值如下： 0：OBS桶（默认值） 1：GaussDB(DWS)服务 2：DLI服务 3：RDS服务 4：MRS服务 5：AI Gallery 6：推理服务
schema_maps	Array of SchemaMap objects	表格数据对应的schema映射信息。
source_info	SourceInfo object	导入表格数据源所需的信息。
with_column_header	Boolean	文件中首行是否是列名，用于表格数据集。可选值如下： true：文件首行为列名 false：文件首行不为列名

表5 SchemaMap
参数	参数类型	描述
dest_name	String	目的方的列名。
src_name	String	来源方的列名。

表6 SourceInfo
参数	参数类型	描述
cluster_id	String	MRS集群ID。可登录MRS控制台查看。
cluster_mode	String	MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群
cluster_name	String	MRS集群名称。可登录MRS控制台查看。
database_name	String	导入表格数据集，数据库名字。
input	String	表格数据集，HDFS路径。例如/datasets/demo。
ip	String	用户GaussDB(DWS)集群的IP地址。
port	String	用户GaussDB(DWS)集群的端口。
queue_name	String	表格数据集，DLI队列名。
subnet_id	String	MRS集群的子网ID。
table_name	String	导入表格数据集，表名。
user_name	String	用户名，GaussDB(DWS)数据需提供此参数。
user_password	String	用户密码，GaussDB(DWS)数据需提供此参数。
vpc_id	String	MRS集群所在的vpc的ID。

表7 Label
参数	参数类型	描述
attributes	Array of LabelAttribute objects	标签的多维度属性，如标签为“音乐”，可能包含属性“风格”、“歌手”等。
name	String	标签名称。
property	LabelProperty object	标签基本属性键值对，如颜色、快捷键等。
type	Integer	标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注

表8 Field
参数	参数类型	描述
description	String	Schema描述。
name	String	Schema名称。
schema_id	Integer	Schema ID。
type	String	Schema值类型。

表9 DatasetVersion
参数	参数类型	描述
add_sample_count	Integer	新增样本数量。
analysis_cache_path	String	特征分析的缓存路径。
analysis_status	Integer	特征分析任务的当前状态。可选值如下： 0：初始化 1：运行中 2：完成 3：失败
analysis_task_id	String	特征分析的任务ID。
annotated_sample_count	Integer	版本已标注样本的数量。
annotated_sub_sample_count	Integer	已标注的子样本数量。
clear_hard_property	Boolean	发布时是否清空难例属性。可选值如下： true：清空难例属性（默认值） false：不清空难例属性
code	String	旋转裁剪等预处理任务的状态码。
create_time	Long	版本创建时间。
crop	Boolean	是否对图片进行裁剪，只对标注框形状为bndbox的物体检测数据集有效。可选值如下： true：对图片进行裁剪 false：不对图片进行裁剪（默认值）
crop_path	String	裁剪后的文件存放路径。
crop_rotate_cache_path	String	旋转裁剪任务执行的临时目录。
data_analysis	Map	特征分析结果，json格式。
data_path	String	数据保存路径。
data_statistics	Map	数据集的样本统计信息，包括样本元信息的统计，json格式。
data_validate	Boolean	发布前数据是否经过校验算法校验。可选值如下： true：数据经过校验 false：数据未经过校验
deleted_sample_count	Integer	已删除的样本数量。
deletion_stats	Map	删除原因统计信息。
description	String	版本描述信息。
export_images	Boolean	发布时是否导出图片到版本输出目录。可选值如下： true：导出图片到版本输出目录 false：不导出图片到版本输出目录（默认值）
extract_serial_number	Boolean	发布时是否需要解析子样本序号，用于医疗数据集。可选值如下： true：解析子样本序号 false：不解析子样本序号（默认值）
include_dataset_data	Boolean	发布时是否包含数据集源数据。可选值如下： true：包含数据集源数据 false：不包含数据集源数据
is_current	Boolean	是否为数据集当前版本。可选值如下： true：数据集当前版本 false：非数据集当前版本
label_stats	Array of LabelStats objects	发布版本的各标签统计信息列表。
label_type	String	发布版本的标签类型。可选值如下： multi：表示含有多标签样本 single：表示所有样本均为单标签
manifest_cache_input_path	String	版本发布时的manifest文件缓存输入路径。
manifest_path	String	版本发布的manifest文件保存路径。
message	String	发布时记录的任务信息（如：错误信息等）。
modified_sample_count	Integer	已修改的样本数量。
previous_annotated_sample_count	Integer	父版本的已标注样本数量。
previous_total_sample_count	Integer	父版本的样本总数。
previous_version_id	String	父版本ID。
processor_task_id	String	旋转裁剪等预处理任务ID。
processor_task_status	Integer	旋转裁剪等预处理任务状态。当前可选值如下： 0：初始化 1：运行中 2：完成 3：失败 4：停止 5：超时 6：删除失败 7：停止失败
remove_sample_usage	Boolean	发布时是否清除数据集已有的usage信息。可选值如下： true：清除数据集已有的usage信息（默认值） false：不清除数据集已有的usage信息
rotate	Boolean	是否对图片进行旋转。可选值如下： true：对图片进行旋转 false：不对图片进行旋转（默认值）
rotate_path	String	旋转后的文件存放路径。
sample_state	String	样本状态。可选样本状态如下： __ALL__：已标注 __NONE__：未标注 __UNCHECK__：待验收 __ACCEPTED__：验收通过 __REJECTED__：已驳回 __UNREVIEWED__：待审核 __REVIEWED__：已审核 __WORKFORCE_SAMPLED__：已采样 __WORKFORCE_SAMPLED_UNCHECK__：采样待验收 __WORKFORCE_SAMPLED_CHECKED__：采样已验收 __WORKFORCE_SAMPLED_ACCEPTED__：采样已通过 __WORKFORCE_SAMPLED_REJECTED__：采样已驳回 __AUTO_ANNOTATION__：待确认
start_processor_task	Boolean	发布时是否启动数据分析任务。可选值如下： true：发布时启动特征分析任务 false：发布时不启动特征分析任务（默认值）
status	Integer	数据集版本状态。可选值如下： 0：创建中 1：运行中 2：删除中 3：已删除 4：错误
tags	Array of strings	版本关键标识列表，标注任务发布版本时将标注类型作为默认标签。如：[“图片”,”物体检测”]。
task_type	Integer	发布版本的标注任务类型，同数据集类型。
total_sample_count	Integer	版本样本总数。
total_sub_sample_count	Integer	从父样本生成的子样本总数。
train_evaluate_sample_ratio	String	发布版本时切分训练验证比例，默认为1.00，即全部分为训练集。
update_time	Long	版本更新时间。
version_format	String	数据集版本格式。可选值如下： Default：默认格式 CarbonData：Carbon格式（仅表格数据集支持） CSV：CSV格式
version_id	String	数据集版本ID。
version_name	String	数据集版本名称。
with_column_header	Boolean	发布的CSV文件的第一行是否为列名，对于表格数据集有效。可选值如下： true：发布的CSV文件的第一行是列名 false：发布的CSV文件的第一行不是列名

**表10** LabelStats
参数	参数类型	描述
attributes	Array of LabelAttribute objects	标签的多维度属性，如标签为“音乐”，可能包含属性“风格”、“歌手”等。
count	Integer	该标签的打标数量。
name	String	标签名称。
property	LabelProperty object	标签基本属性键值对，如颜色、快捷键等。
sample_count	Integer	包含该标签的样本数量。
type	Integer	标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注

**表11** LabelAttribute
参数	参数类型	描述
default_value	String	标签属性默认值。
id	String	标签属性ID。可通过调用标签列表查询。
name	String	标签属性名称。不能超过64个字符，不能包含字符!=&”‘。
type	String	标签属性类型。可选值如下： text：文本 select：单选下拉列表
values	Array of LabelAttributeValue objects	标签属性值列表。

**表12** LabelAttributeValue
参数	参数类型	描述
id	String	标签属性值ID。
value	String	标签属性值。

**表13** LabelProperty
参数	参数类型	描述
@modelarts:color	String	内置属性：标签展示的颜色，为色彩的16进制代码，默认为空。例如：“#FFFFF0”。
@modelarts:default_shape	String	内置属性：物体检测标签的默认形状（物体检测标签专用属性），默认为空。可选值如下： bndbox：矩形。 polygon：多边形。 circle：圆形。 line：直线。 dashed：虚线。 point：点。 polyline：折线。
@modelarts:from_type	String	内置属性：三元组关系标签的起始实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。
@modelarts:rename_to	String	内置属性：重命名后的标签名。
@modelarts:shortcut	String	内置属性：标签快捷键，默认为空。例如：“D”。
@modelarts:to_type	String	内置属性：三元组关系标签的指向实体类型，创建关系标签时必须指定，该参数仅文本三元组数据集使用。

**表14** WorkforceDescriptor
参数	参数类型	描述
current_task_id	String	团队标注任务ID。
current_task_name	String	团队标注任务名称。
reject_num	Integer	驳回的样本数。
repetition	Integer	每个样本由多少人标注，最少为1。
is_synchronize_auto_labeling_data	Boolean	是否同步更新智能标注数据。可选值如下： true：同步更新智能标注数据 false：不同步更新智能标注数据
is_synchronize_data	Boolean	是否同步更新数据：如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下： true：同步更新数据至团队成员 false：不同步更新数据至团队成员
workers	Array of Worker objects	标注成员列表。
workforce_id	String	标注团队ID。
workforce_name	String	标注团队名称。

**表15** Worker
参数	参数类型	描述
create_time	Long	创建时间。
description	String	标注成员描述，长度为0-256位，不能包含^!=&”‘特殊字符。
email	String	标注成员邮箱。
role	Integer	角色。可选值如下： 0：打标者 1：审核者 2：团队管理者 3：数据集拥有者
status	Integer	标注成员的当前登录状态。可选值如下： 0：未发送邀请邮件 1：已发送邀请邮件但未登录 2：已登录 3：标注成员已删除
update_time	Long	更新时间。
worker_id	String	标注成员ID。
workforce_id	String	所属标注团队ID。

请求示例

查询数据集详情

GET https://{endpoint}/v2/{project_id}/datasets/{dataset_id}

响应示例

状态码： 200

{
  "dataset_id" : "gfghHSokody6AJigS5A",
  "dataset_name" : "dataset-f9e8",
  "dataset_type" : 0,
  "data_format" : "Default",
  "next_version_num" : 4,
  "status" : 1,
  "data_sources" : [ {
    "data_type" : 0,
    "data_path" : "/test-obs/classify/input/animals/"
  } ],
  "create_time" : 1605690595404,
  "update_time" : 1605690595404,
  "description" : "",
  "current_version_id" : "54IXbeJhfttGpL46lbv",
  "current_version_name" : "V003",
  "total_sample_count" : 10,
  "annotated_sample_count" : 10,
  "unconfirmed_sample_count" : 0,
  "work_path" : "/test-obs/classify/output/",
  "inner_work_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/",
  "inner_annotation_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/",
  "inner_data_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/data/",
  "inner_log_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/logs/",
  "inner_temp_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/temp/",
  "inner_task_path" : "/test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/task/",
  "work_path_type" : 0,
  "workspace_id" : "0",
  "enterprise_project_id" : "0",
  "workforce_task_count" : 0,
  "feature_supports" : [ "0" ],
  "managed" : false,
  "import_data" : false,
  "label_task_count" : 1,
  "dataset_format" : 0,
  "dataset_version_count" : 3,
  "content_labeling" : true,
  "labels" : [ {
    "name" : "Rabbits",
    "type" : 0,
    "property" : {
      "@modelarts:color" : "#3399ff"
    }
  }, {
    "name" : "Bees",
    "type" : 0,
    "property" : {
      "@modelarts:color" : "#3399ff"
    }
  } ]
}

状态码

状态码	描述
200	OK
401	Unauthorized
403	Forbidden
404	Not Found

错误码

请参见错误码。

父主题： 数据管理（旧版）

同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

华为云AI开发平台ModelArts查询数据集详情_云淘科技

功能介绍

调试

URI

请求参数

响应参数

请求示例

响应示例

状态码

错误码

分类

近期文章

近期评论

友情链接

分类目录

功能介绍

调试

URI

请求参数

响应参数

请求示例

响应示例

状态码

错误码

相关文章

分类

近期文章

近期评论

友情链接

分类目录