华为云AI开发平台ModelArts数据集行过滤_云淘科技

概述

根据过滤条件,对数据集按照行进行过滤。

输入

参数

子参数

参数说明

inputs

dataframe

inputs为字典类型,dataframe为pyspark中的DataFrame类型对象

输出

参数

子参数

参数说明

output

output_port_1

output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为数据集过滤结果

参数说明

参数

是否必选

参数说明

默认值

column_name

列名,对该列按照过滤条件进行数据集的行过滤,不同列之间用分号分隔

condition_map_str

过滤条件组装后的格式化字符串,格式参考:”!=:filter_value;IS NULL;BETWEEN:left_value,right_value;REGEXP:expr”

该字符串将被分号分割为多个条件,每个条件对应的字符串将被冒号分割为过滤条件和过滤值,最终将被转换成如下字典:

{

“=”: “filter_value”,

“!=”: “filter_value”,

“>”: “filter_value”,

“>=”: “filter_value”,

“<": "filter_value",

“<=": "filter_value",

“IS NULL”: “”,

“IS NOT NULL”: “”,

“BETWEEN”: “filter_value_left,filter_value_right”,

“NOT BETWEEN”: “filter_value_left,filter_value_right”,

“LIKE”: “filter_value_expr”,

“NOT LIKE”: “filter_value_expr”,

“REGEXP”: “filter_value_expr”

}

样例

数据样本

鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。

配置流程

运行流程

参数设置

图1 参数设置(过滤出sepal_length>4.5且petal_length<=0.1的数据)

图2 参数设置(选择该列中后缀为”setosa”的样本)

图3 参数设置(选择该列中包含”versicolor”的样本)

查看结果

图4 参数设置1结果

图5 参数设置2结果

图6 参数设置3结果

父主题: 数据处理

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家