
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
共254项
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真…
概述 将分词后的句子生成连续N个词的NGram短语,并进行全局个数的统计,支持权重列输入。 输入 参数 子参数 参数说明 inputs input_table 输入表表名,输入的包含分词后的句子的数据表;必填; inputs vocab_t…
概述 皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。选择输入的dataframe中的两列数值列,计算其皮尔森系数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafra…
概述 向量召回评估算子计算召回的hitrate,用于评估召回结果的好坏,hitrate越高表示训练产出的向量去召回向量的结果越准确。支持u2i召回和i2i召回的计算。u2i召回时,拿user(用户)的向量去召回top k个items(物品)…
概述 承接分词结果,计算一个文档里单词两两之间的互信息值(PMI)。PMI计算公式如下: 相关概念解释: 共现对儿:一句话里面如果两个词在句子里的距离小于等于定义的滑动窗口大小,则这两个词共现形成共现对儿。 P(x,y):x,y为两个词,P…
概述 百分位是统计学术语,用于计算数据表列数据的百分位。可以将一组数据从小到大排序,并计算相应数据的百分位,则某百分位所对应数据的值称为该百分位的百分位数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典…
概述 离散值特征分析通过每个离散特征的gini,entropy,gini gain,information gain,information gain ratio等和每个离散值对应的gini,entropy指标,方便对离散特征进行理解。 输…
概述 承接分词结果,获取各个文档中的关键词。 原理 该算法基于TextRank,依据的PageRank算法思想,将滑动窗口内的共现词汇对儿当做相连接的节点构建网络,计算节点的价值(即单词的重要性)并排序,数值高的单词即为该文本的关键词。 T…
概述 “协同过滤-Item-based”节点用于推荐场景,它通过用户和物品之间的关系计算物品之间的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Dat…