华为云AI开发平台ModelArts数据集拆分_云淘科技

概述

将数据集按照比例或阈值拆分为两个子数据集。

输入

参数

子参数

参数说明

inputs

dataframe

pyspark中DataFrame类型的对象

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为拆分的子数据集1。

output

output_port_2

output_port_2为pyspark中的DataFrame类型对象,为拆分的子数据集2。

参数说明

参数

是否必选

参数说明

默认值

fraction

分割比例,比例值对应第一个数据集的行数。

0.7

id_col

id列,按比例拆分的情况下,若设置该列,则该列相同的样本不会被拆分,按阈值拆分则设置该列无效。

threshold_col

用于阈值拆分的列。

thrshold

拆分阈值。

0.0

seed

随机数种子。

1234

若设置fraction,则按照比例拆分,阈值列和阈值设置无效。

样例

数据样本

鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。

图1 数据样本

配置流程

运行流程

参数设置

图2 参数设置(按比例拆分)

图3 参数设置(按阈值拆分)

按petal_width列划分,小于等于2.0的数据划分至子数据集1,大于2.0的数据划分至子数据集2。

查看结果

按比例拆分

图4 子数据集1

图5 子数据集2

按阈值拆分

图6 子数据集1

图7 子数据集2

父主题: 数据处理

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家