华为云AI开发平台ModelArts数据集拆分_云淘科技
概述
将数据集按照比例或阈值拆分为两个子数据集。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
pyspark中DataFrame类型的对象 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为拆分的子数据集1。 |
output |
output_port_2 |
output_port_2为pyspark中的DataFrame类型对象,为拆分的子数据集2。 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
fraction |
否 |
分割比例,比例值对应第一个数据集的行数。 |
0.7 |
id_col |
否 |
id列,按比例拆分的情况下,若设置该列,则该列相同的样本不会被拆分,按阈值拆分则设置该列无效。 |
无 |
threshold_col |
否 |
用于阈值拆分的列。 |
无 |
thrshold |
否 |
拆分阈值。 |
0.0 |
seed |
否 |
随机数种子。 |
1234 |
若设置fraction,则按照比例拆分,阈值列和阈值设置无效。
样例
数据样本
鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。
图1 数据样本
配置流程
运行流程
参数设置
图2 参数设置(按比例拆分)
图3 参数设置(按阈值拆分)
按petal_width列划分,小于等于2.0的数据划分至子数据集1,大于2.0的数据划分至子数据集2。
查看结果
按比例拆分
图4 子数据集1
图5 子数据集2
按阈值拆分
图6 子数据集1
图7 子数据集2
父主题: 数据处理
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家