概述 按照配置的比例参数,对数据集进行随机抽样。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数…
概述 采用卡方检验来进行特征选择。 卡方检验(Chi-Squared Test或χ2 Test)的基本思想是通过特征变量与目标变量之间的偏差大小来选择相关性较大的特征变量。首先假设两个变量是独立的,然后观察实际值与理论值的偏差程度,该偏差程…
概述 将训练出来的spark标准pipeline类型的模型保存到OBS里面 输入 参数 子参数 参数说明 inputs pipeline_model inputs为字典类型,pipeline_model为pyspark中的PipelineM…
概述 二分k-means算法是分层聚类(Hierarchical clustering)的一种,分层聚类是聚类分析中常用的方法。 分层聚类的策略一般有两种: 聚合:这是一种自底向上的方法,每一个观察者初始化本身为一类,然后两两结合。 分裂:…
概述 “随机决策森林回归”节点用于产生回归模型。随机决策森林是用随机的方式建立一个森林模型,森林由很多的决策树组成,每棵决策树之间没有关联。当有一个新的样本输入时,该样本取值为所有决策树的预测值的平均值。 随机决策森林回归中的决策树算法是递…
每个内置的算法资产内包含了算法套件、数据集、预训练模型,可以通过list命令查看内置的资产。 查询内置算法 python manage.py list algorithm 查询内置数据集 python manage.py list data…
使用ma-cli image unregister命令将注册的镜像从ModelArts中删除。 $ ma-cli image unregister -h Usage: ma-cli image unregister [OPTIONS] Un…
ma-cli dli-job upload命令支持将本地文件或OBS文件上传到DLI资源组。 $ ma-cli dli-job upload -h Usage: ma-cli dli-job upload [OPTIONS] PATHS…..
在AI开发过程中,如何将文件方便快速地上传到Notebook几乎是每个开发者都会遇到的问题。 ModelArts之前对文件直接上传到Notebook的大小限制是100MB,超过限制的文件无法直接上传;其次需要上传的文件并不都在本地,可能是G…
概述 对数据集的某些列,进行分桶,即直方图统计。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 统计结果数据集 参数说明 参数…