华为云AI开发平台ModelArts离散特征分析_云淘科技
概述
离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 |
输出
参数 |
子参数 |
参数说明 |
---|---|---|
output |
output_cnt_table |
指向一个pyspark的DataFrame类型对象,该对象中包含各个特征及其取值的统计信息 |
output |
output_value_table |
指向一个pyspark的DataFrame类型对象,该对象中包含各个特征的gini,entropy,gini gain,information gain,information gain ratio指标 |
output |
output_enum_value_table |
指向一个pyspark的DataFrame类型对象,该对象中包含各个特征取值的gini,entropy指标 |
参数说明
参数 |
是否必选 |
参数说明 |
默认值 |
---|---|---|---|
feature_cols |
是 |
待分析的特征名称 |
“” |
label_col |
是 |
标签列的名称 |
“” |
enable_sparse |
是 |
输入数据是否为稀疏格式,取值为{true,false} |
false |
kv_delimiter |
是 |
当输入数据为稀疏格式时,kv对之间的分隔符 |
“:” |
item_delimiter |
是 |
当输入数据为稀疏格式时,key和value之间的分隔符 |
“,” |
sparse_feature_list |
否 |
稀疏格式的特征名称 |
“” |
样例
数据样本
f1,f2,label 1,1,0 1,1,1 1,1,1 1,0,1 1,0,1 2,0,0 2,0,1
配置流程
运行流程
图1 运行流程
参数设置
图2 参数设置
查看结果
output_cnt_table:
col_name,col_value,label_value,cnt f2,1,1,2 f2,1,0,1 f2,0,1,3 f2,0,0,1 f1,1,1,4 f1,1,0,1 f1,2,0,1 f1,2,1,1
output_value_table:
col_name,feature_gini,feature_entropy,feature_gini_gain,feature_entropy_gain,feature_entropy_ratio f2,0.40476190476190477,0.8571428571428571,0.003401360544217691,0.0059777114237739015,0.006925696874193348 f1,0.37142857142857133,0.8013772106338303,0.03673469387755113,0.061743357932800724,0.07153503251039055
output_enum_value_table:
col_name,col_value,feature_value_gini,feature_value_entropy f2,1,0.19047619047619047,0.39355535745192405 f1,1,0.22857142857142845,0.5156629249195446 f2,0,0.21428571428571427,0.46358749969093305 f1,2,0.14285714285714285,0.2857142857142857
父主题: 数据分析
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家