华为云AI开发平台ModelArts特征异常平滑_云淘科技
概述
特征异常平滑算子用于将数据中的异常数据平滑到一定的区间,可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。
z-score方式:计算所需要平滑的特征的均值mean和标准差std,并引入置信因子cl
平滑区间上界:
平滑区间下界:
min-max-per方式:通过上下百分位计算,假设需要平滑的特征列最大值为max,上百分位为max_per,下百分位为min_per
平滑区间上界:
平滑区间下界:
min-max-thresh方式:直接指定平滑区间的上界和下界
boxplot方式:通过箱线图的方式计算平滑区间
中位数(Q2 / 50th百分位数):数据集的中间值;
下四分位数(Q1 / 25百分位数):最小数(不是“最小值”)和数据集的中位数之间的中间数;
上四分位数(Q3 / 75th Percentile):数据集的中位数和最大值之间的中间值(不是“最大值”);
四分位间距(IQR):第25至第75个百分点的距离
上边缘:Q3 + 1.5 * IQR
下边缘:Q1 -1.5 * IQR
平滑区间上界:上边缘
平滑区间下界:下边缘
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象。 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_port_1 |
output为字典类型,output_port_1为pyspark中的PipelineModel类型对象,特征异常平滑模型。 |
output |
output_port_2 |
output_port_2为pyspark中的DataFrame类型,为特征异常平滑结果。 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
soften_cols |
是 |
需要进行特征异常平滑处理的列,逗号分隔。 |
无 |
soften_method |
是 |
特征平滑方法,可选z-score,min-max-per,min-max-thresh,boxplot。 |
“z-score” |
keep_original |
是 |
是否保留原始列,若保留则新增列,列名为原始列前加’soften_’。 |
False |
cl |
否 |
置信水平,当选择z-score方法时需要配置此参数。 |
1 |
min_per |
否 |
最低百分位。当平滑方法为min-max-per时需要配置该参数。 |
0.0 |
max_per |
否 |
最高百分位。当平滑方法为min-max-per时需要配置该参数。 |
0.1 |
min_thresh |
否 |
阈值最小值。当平滑方法为min-max-thresh时需要配置该参数。 |
-9999 |
max_thresh |
否 |
阈值最大值。当平滑方法为阈值平滑时需要配置该参数。 |
9999 |
is_sparse |
是 |
是否为k:v的稀疏特征, 若指定该列,soften_cols参数只支持选择稀疏特征列kv_col中的列名。 |
False |
kv_col |
否 |
若为稀疏特征,指定稀疏特征列名。 |
“kv” |
item_spliter |
否 |
稀疏特征的分隔符。 |
“,” |
kv_spliter |
否 |
稀疏特征key和value的分隔符。 |
“:” |
样例
数据样本
样例1 非稀疏数据
样例2 稀疏数据
配置流程
运行流程
参数设置
图1 样例1数据参数设置
图2 样例2数据参数设置
结果查看
图3 样例1数据运行结果
图4 样例2数据运行结果
父主题: 特征工程
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家