箱型图 分桶统计 相关性分析 决策树分类特征重要性 决策树回归特征重要性 梯度提升树分类特征重要性 梯度提升树回归特征重要性 孤立森林 百分位 百分位统计 直方图 折线图 饼形图 散点图 随机森林分类特征重要性 随机森林回归特征重要性 全表…
单样本t检验目前仅支持在ML Studio镜像内运行,不支持发布到dli。 概述 t检验也称为Student t检验,它是一种使用假设检验来评估一个或两个总体均值的工具。单样本t检验可用于检验一个正态分布的总体的均值是否在满足零假设的值之内…
概述 直方图是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式展现。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,…
卡方拟合检验目前仅支持在ML Studio镜像内运行,不支持发布到dli。 概述 卡方拟合检验,即卡方拟合优度检验。对每个类别中的实测频率和期望频率进行比较,以检验是否所有类别包含相同比例的值,或检验是否每个类别包含用户指定比例的值。 输入…
卡方独立性检验目前仅支持在MLStudio镜像内运行,不支持发布到dli。 概述 卡方独立性检验是检验两个变量之间是否存在相关性。一般认为这两个变量是分类变量,我们认为两者之间是不相关的,可以通过检验来确定该看法。 输入 参数 子参数 参数…
概述 协方差,在概率论与统计学中用于衡量随机变量的联合变化程度。正态形式的协方差大小可以显示变量之间线性关系的强弱,如:皮尔逊相关系数。但是协方差的数值大小也取决于变量的大小。协方差矩阵是多个变量之间的协方差所构成的矩阵表示形式。方差是协方…
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
概述 皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。选择输入的dataframe中的两列数值列,计算其皮尔森系数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafra…
概述 百分位是统计学术语,用于计算数据表列数据的百分位。可以将一组数据从小到大排序,并计算相应数据的百分位,则某百分位所对应数据的值称为该百分位的百分位数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典…
概述 离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。 输…