概述 过滤式特征选择根据特征对标签的重要性对特征进行筛选,特征重要性较高的特征,提升训练的精度和效率。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataF…
概述 读CSV文件支持从LOCAL、OBS、HDFS读取CSV类型的文件数据。 输入 无 输出 表1 参数 子参数 参数说明 output output_port_1 output为字典类型,output_port_1为pyspark中的D…
概述 词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafr…
概述 该算子可以帮助我们自动确定 A R I M A ( p , d , q ) ( P , D , Q ) m。 Auto ARIMA选择过程 1. 执行差分测试 决定差分d的大小(KPSS检测和ADF检测) 2. 拟合模型: 通过限制s…
箱型图 分桶统计 相关性分析 决策树分类特征重要性 决策树回归特征重要性 梯度提升树分类特征重要性 梯度提升树回归特征重要性 孤立森林 百分位 百分位统计 直方图 折线图 饼形图 散点图 随机森林分类特征重要性 随机森林回归特征重要性 全表…
概述 “连接”节点是关系数据库中常用的方法之一,用于以特定的方式将两个数据集联接在一起。 输入 参数 子参数 参数说明 inputs left_dataframe inputs为字典类型,left_dataframe为执行连接操作的左数据集…
概述 加权采样是一种数据采样算法,依据数据集中权重列进行数据采样,权重越大的样本被采样的概率越大。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFra…
概述 用线性模型计算训练数据的特征重要性。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 特征的重要性和特征在线性模型中的we…
保存为DLI OBS表 保存数据 保存CSV数据到OBS 保存模型 保存模型到OBS 保存parquet数据 数据压缩 父主题: 输入输出 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想…
概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真…