华为云AI开发平台ModelArts数据集行过滤_云淘科技
概述
根据过滤条件,对数据集按照行进行过滤。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
output为字典类型,output_port_1为pyspark中的DataFrame类型对象,为数据集过滤结果 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
column_name |
是 |
列名,对该列按照过滤条件进行数据集的行过滤,不同列之间用分号分隔 |
无 |
condition_map_str |
是 |
过滤条件组装后的格式化字符串,格式参考:”!=:filter_value;IS NULL;BETWEEN:left_value,right_value;REGEXP:expr” 该字符串将被分号分割为多个条件,每个条件对应的字符串将被冒号分割为过滤条件和过滤值,最终将被转换成如下字典: { “=”: “filter_value”, “!=”: “filter_value”, “>”: “filter_value”, “>=”: “filter_value”, “<": "filter_value", “<=": "filter_value", “IS NULL”: “”, “IS NOT NULL”: “”, “BETWEEN”: “filter_value_left,filter_value_right”, “NOT BETWEEN”: “filter_value_left,filter_value_right”, “LIKE”: “filter_value_expr”, “NOT LIKE”: “filter_value_expr”, “REGEXP”: “filter_value_expr” } |
无 |
样例
数据样本
鸢尾花数据集,species列代表鸢尾花种类,共有Iris-setosa、Iris-versicolor和Iris-virginica三种类别,每种类别样本数量为50。
配置流程
运行流程
参数设置
图1 参数设置(过滤出sepal_length>4.5且petal_length<=0.1的数据)
图2 参数设置(选择该列中后缀为”setosa”的样本)
图3 参数设置(选择该列中包含”versicolor”的样本)
查看结果
图4 参数设置1结果
图5 参数设置2结果
图6 参数设置3结果
父主题: 数据处理
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家