概述 将普通的table表转为KV(Key:Value)格式的表。 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但…
概述 读取由scikit-learn等平台生产的GBDT的PMML模型文件,并对新的数据进行预测。当前只支持GBDT的分类模型。预测的结果包含预测的类别及其概率,以及一个包含各个类别,及其概率的详细信息字段。 输入 参数 子参数 参数说明 …
概述 三元组转kv,用于将三元组表转换为kv表,三元组表为(row, key, value)的形式,kv表为(row, [key_id:value])的形式,同时会生成关于(key, key_id)的表格。 输入 参数 子参数 参数说明 i…
概述 多个数据集按照行合并为一个数据集。 输入 参数 子参数 参数说明 inputs dataframe_1 被合并的数据集一 dataframe_2 被合并的数据集二 dataframe_3 被合并的数据集三(可缺省) dataframe…
概述 用于将KV(Key:Value)格式的表为普通表格式。其中Key转换成表的某列名,Value转换成该列在对应行的值。 表格式定义 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在…
概述 过滤式特征选择根据特征对标签的重要性对特征进行筛选,特征重要性较高的特征,提升训练的精度和效率。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataF…
概述 使用pytorch实现的多层感知机分类算法,可运行于异构资源池上。 该算子通过cuda自动判断gpu是否可用。若gpu可用,优先使用gpu训练;否则使用cpu训练。 输入 参数 子参数 参数说明 data_url _ data_url…
概述 LDA主题分析模型(Latent Dirichlet Allocation),由Blei等人于2003年提出的无监督学习算法,可以按照概率分布的形式给出文档集中每篇文档的主题,在文本挖掘领域,应用于文本主题识别、文本分类和文本相似度计…
概述 分层采样是一种数据采样算法,依据数据集中某一代表数据类别的列,按照数量或比例对不同类别的数据进行采样。 算法实现采用spark自带的sample函数,采样数量会存在一定误差(按比例采样和按数量采样均会存在)。 输入 参数 子参数 参数…
概述 用线性模型计算训练数据的特征重要性。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 特征的重要性和特征在线性模型中的we…