概述 抽取文本中的部分原句作为文本的摘要。 该算法按照既定标点符号等进行句子拆分,基于TextRank思想求出可代表该文档的句子作为其摘要。 输入 参数 子参数 参数说明 inputs input_table 输入表表名 输入参数说明 参数…
概述 特征异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency) 箱型图用于检测连续值类特征的数据,根据四分位数检测异常特征。 AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈…
概述 停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的D…
概述 特征异常平滑算子用于将数据中的异常数据平滑到一定的区间,可选择采用箱线图、阈值、百分位和z-score的方法确定平滑区间。 z-score方式:计算所需要平滑的特征的均值mean和标准差std,并引入置信因子cl 平滑区间上界: 平滑…
概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明…
单样本t检验目前仅支持在ML Studio镜像内运行,不支持发布到dli。 概述 t检验也称为Student t检验,它是一种使用假设检验来评估一个或两个总体均值的工具。单样本t检验可用于检验一个正态分布的总体的均值是否在满足零假设的值之内…
概述 利用训练好的gbdt分类模型对输入的特征进行离散化处理。对每棵树的叶子节点进行编码,预测的时候遍历到叶子节点对应位置的编码为1,该树其余节点的编码为0。该节点主要用于生产gbdt的分类模型,并存储到输入参数对应的位置上。 输入 参数 …
概述 将数据压缩后到本地文件系统。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 参数说明 dat…
概述 该算子可以帮助我们自动确定 A R I M A ( p , d , q ) ( P , D , Q ) m。 Auto ARIMA选择过程 1. 执行差分测试 决定差分d的大小(KPSS检测和ADF检测) 2. 拟合模型: 通过限制s…
使用ma-cli ma-job get-job命令可以查看训练作业列表或某个作业详情。 $ ma-cli ma-job get-job -h Usage: ma-cli ma-job get-job [OPTIONS] Get job de…