华为云AI开发平台ModelArts数据集简介_云淘科技
数据管理模块即将下线,对未使用过数据管理的用户不可见。
数据集的类型
当前ModelArts支持如下格式的数据集。
图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。
音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。
文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。
视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。
自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。
图1 自由格式数据集示例
表格
表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。
不同类型数据集支持的功能列表
其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。
数据集类型 |
标注类型 |
创建数据集 |
导入数据 |
导出数据 |
发布数据集 |
修改数据集 |
管理版本 |
自动分组 |
数据特征 |
---|---|---|---|---|---|---|---|---|---|
图片 |
图像分类 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
物体检测 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
|
图像分割 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
支持 |
– |
|
音频 |
声音分类 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
语音内容 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
|
语音分割 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
|
文本 |
文本分类 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
命名实体 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
|
文本三元组 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
|
视频 |
视频 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
自由格式 |
自由格式 |
支持 |
– |
_ |
支持 |
支持 |
支持 |
– |
– |
表格 |
表格 |
支持 |
支持 |
– |
支持 |
支持 |
支持 |
– |
– |
规格限制
除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。
除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。
针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。
单个manifest文件大小限制:5GB。
文本文件单行大小限制:100KB。
数据管理标注结果文件大小限制:100MB。
父主题: 创建数据集
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家