概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…
卡方独立性检验目前仅支持在MLStudio镜像内运行,不支持发布到dli。 概述 卡方独立性检验是检验两个变量之间是否存在相关性。一般认为这两个变量是分类变量,我们认为两者之间是不相关的,可以通过检验来确定该看法。 输入 参数 子参数 参数…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。 输入 参数 子参数 参数说明 inputs dataDF i…
概述 协方差,在概率论与统计学中用于衡量随机变量的联合变化程度。正态形式的协方差大小可以显示变量之间线性关系的强弱,如:皮尔逊相关系数。但是协方差的数值大小也取决于变量的大小。协方差矩阵是多个变量之间的协方差所构成的矩阵表示形式。方差是协方…
概述 通过给定一个缺省值的配置表,来实现将输入表的缺省值或固定值填充为定义的值。 将数值型的空值替换为最大值,最小值,均值或者一个自定义的值。 将字符串类型、日期类型的空值、或者固定值,替换为一个自定义的值。 数值型替换可以自定义,也可以直…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度 输入 参数 子参数 参数说明 inputs dataDF in…
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真…
概述 将分词后的句子生成连续N个词的NGram短语,并进行全局个数的统计,支持权重列输入。 输入 参数 子参数 参数说明 inputs input_table 输入表表名,输入的包含分词后的句子的数据表;必填; inputs vocab_t…
概述 皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。选择输入的dataframe中的两列数值列,计算其皮尔森系数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafra…