概述 将数据压缩后到本地文件系统。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 参数说明 dat…
概述 该算子可以帮助我们自动确定 A R I M A ( p , d , q ) ( P , D , Q ) m。 Auto ARIMA选择过程 1. 执行差分测试 决定差分d的大小(KPSS检测和ADF检测) 2. 拟合模型: 通过限制s…
使用ma-cli ma-job get-job命令可以查看训练作业列表或某个作业详情。 $ ma-cli ma-job get-job -h Usage: ma-cli ma-job get-job [OPTIONS] Get job de…
单样本t检验目前仅支持在ML Studio镜像内运行,不支持发布到dli。 概述 t检验也称为Student t检验,它是一种使用假设检验来评估一个或两个总体均值的工具。单样本t检验可用于检验一个正态分布的总体的均值是否在满足零假设的值之内…
概述 利用训练好的gbdt分类模型对输入的特征进行离散化处理。对每棵树的叶子节点进行编码,预测的时候遍历到叶子节点对应位置的编码为1,该树其余节点的编码为0。该节点主要用于生产gbdt的分类模型,并存储到输入参数对应的位置上。 输入 参数 …
概述 词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafr…
概述 直方图是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式展现。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,…
概述 利用训练好的gbdt分类模型对输入的特征进行离散化处理。对每棵树的叶子节点进行编码,预测的时候遍历到叶子节点对应位置的编码为1,该树其余节点的编码为0。该节点主要用于读取gbdt编码模型训练阶段保存的模型,并对数据进行离散化编码。 输…
概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…
使用介绍 仅对Code cell类型新增了Edit Form和Add Form功能,如果cell类型是Markdown或者Raw类型则不支持。如下图所示: 图1 查看Code cell 打开新的代码后,需先Add Form,再Edit Fo…