华为云AI开发平台ModelArts数据集行过滤_云淘科技

AI开发平台ModelArts

5 月 05, 2023

129 0

概述

根据过滤条件，对数据集按照行进行过滤。

输入

参数	子参数	参数说明
inputs	dataframe	inputs为字典类型，dataframe为pyspark中的DataFrame类型对象

输出

参数	子参数	参数说明
output	output_port_1	output为字典类型，output_port_1为pyspark中的DataFrame类型对象，为数据集过滤结果

参数说明

参数	是否必选	参数说明	默认值
column_name	是	列名，对该列按照过滤条件进行数据集的行过滤，不同列之间用分号分隔	无
condition_map_str	是	过滤条件组装后的格式化字符串，格式参考：”!=:filter_value;IS NULL;BETWEEN:left_value,right_value;REGEXP:expr” 该字符串将被分号分割为多个条件，每个条件对应的字符串将被冒号分割为过滤条件和过滤值，最终将被转换成如下字典： { “=”: “filter_value”, “!=”: “filter_value”, “>”: “filter_value”, “>=”: “filter_value”, “<": "filter_value", “<=": "filter_value", “IS NULL”: “”, “IS NOT NULL”: “”, “BETWEEN”: “filter_value_left,filter_value_right”, “NOT BETWEEN”: “filter_value_left,filter_value_right”, “LIKE”: “filter_value_expr”, “NOT LIKE”: “filter_value_expr”, “REGEXP”: “filter_value_expr” }	无

参数

是否必选

参数说明

默认值

column_name

是

列名，对该列按照过滤条件进行数据集的行过滤，不同列之间用分号分隔

无

condition_map_str

是

过滤条件组装后的格式化字符串，格式参考：”!=:filter_value;IS NULL;BETWEEN:left_value,right_value;REGEXP:expr”

该字符串将被分号分割为多个条件，每个条件对应的字符串将被冒号分割为过滤条件和过滤值，最终将被转换成如下字典：

{

“=”: “filter_value”,

“!=”: “filter_value”,

“>”: “filter_value”,

“>=”: “filter_value”,

“<": "filter_value",

“<=": "filter_value",

“IS NULL”: “”,

“IS NOT NULL”: “”,

“BETWEEN”: “filter_value_left,filter_value_right”,

“NOT BETWEEN”: “filter_value_left,filter_value_right”,

“LIKE”: “filter_value_expr”,

“NOT LIKE”: “filter_value_expr”,

“REGEXP”: “filter_value_expr”

}

无

样例

数据样本

鸢尾花数据集，species列代表鸢尾花种类，共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别，每种类别样本数量为50。

配置流程

运行流程

参数设置

图1 参数设置（过滤出sepal_length>4.5且petal_length<=0.1的数据）

图2 参数设置（选择该列中后缀为”setosa”的样本）

图3 参数设置（选择该列中包含”versicolor”的样本）

查看结果

图4 参数设置1结果

图5 参数设置2结果

图6 参数设置3结果

父主题： 数据处理

同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家