概述 对数据集画出对应的散点图。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 参数说明 star…
概述 采用随机森林分类算法计算数据集特征的特征重要性 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集;如果没有pipeline_model和random_forest_classify_model…
概述 采用随机森林回归算法计算数据集特征的特征重要性 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集;如果没有pipeline_model和random_forest_regressor_mode…
概述 对数据集的某些列,进行分桶,即直方图统计。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 统计结果数据集 参数说明 参数…
概述 对数据集指定的某些列做全表统计,包括元素总数、null值个数、nan值个数、最小值、最大值、方差、标准差等。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中…
概述 对数据集中选择的某些列,画出箱型图。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 参数说明…
概述 对数据集的数值列进行相关性分析。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 参数 子参数 参数说明 output o…
概述 采用决策树分类算法计算数据集特征的特征重要性。 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集。 如果没有pipeline_model和decision_tree_classify_mode…
概述 采用决策树回归算法计算数据集特征的特征重要性。 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集;如果没有pipeline_model和decision_tree_regressor_mode…
概述 采用梯度提升树分类算法计算数据集特征的特征重要性。 输入 参数 子参数 参数说明 inputs dataframe 参数必选,表示输入的数据集;如果没有pipeline_model和gbt_classify_model参数,表示直接根…