使用介绍 仅对Code cell类型新增了Edit Form和Add Form功能,如果cell类型是Markdown或者Raw类型则不支持。如下图所示: 图1 查看Code cell 打开新的代码后,需先Add Form,再Edit Fo…
卡方拟合检验目前仅支持在ML Studio镜像内运行,不支持发布到dli。 概述 卡方拟合检验,即卡方拟合优度检验。对每个类别中的实测频率和期望频率进行比较,以检验是否所有类别包含相同比例的值,或检验是否每个类别包含用户指定比例的值。 输入…
概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…
卡方独立性检验目前仅支持在MLStudio镜像内运行,不支持发布到dli。 概述 卡方独立性检验是检验两个变量之间是否存在相关性。一般认为这两个变量是分类变量,我们认为两者之间是不相关的,可以通过检验来确定该看法。 输入 参数 子参数 参数…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。 输入 参数 子参数 参数说明 inputs dataDF i…
概述 协方差,在概率论与统计学中用于衡量随机变量的联合变化程度。正态形式的协方差大小可以显示变量之间线性关系的强弱,如:皮尔逊相关系数。但是协方差的数值大小也取决于变量的大小。协方差矩阵是多个变量之间的协方差所构成的矩阵表示形式。方差是协方…
概述 通过给定一个缺省值的配置表,来实现将输入表的缺省值或固定值填充为定义的值。 将数值型的空值替换为最大值,最小值,均值或者一个自定义的值。 将字符串类型、日期类型的空值、或者固定值,替换为一个自定义的值。 数值型替换可以自定义,也可以直…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度 输入 参数 子参数 参数说明 inputs dataDF in…
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真…