概述 提供的增加序号列组件。您可以在数据表的第一列追加ID列。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明…
概述 读CSV文件支持从LOCAL、OBS、HDFS读取CSV类型的文件数据。 输入 无 输出 表1 参数 子参数 参数说明 output output_port_1 output为字典类型,output_port_1为pyspark中的D…
概述 FM主要是解决稀疏数据下的特征组合问题,并且其预测的复杂度是线性的,对于连续和离散特征有较好的通用性。 公式为: 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspar…
概述 swing是一个i2i的召回算法,基于User-Item-User图结构的推荐算法。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型…
概述 文本TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库出现的频率成反比下降。文本TF-IDF用于展示文本基于词频统计的…
概述 将普通的table表转为KV(Key:Value)格式的表。 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但…
概述 读取由scikit-learn等平台生产的GBDT的PMML模型文件,并对新的数据进行预测。当前只支持GBDT的分类模型。预测的结果包含预测的类别及其概率,以及一个包含各个类别,及其概率的详细信息字段。 输入 参数 子参数 参数说明 …
概述 三元组转kv,用于将三元组表转换为kv表,三元组表为(row, key, value)的形式,kv表为(row, [key_id:value])的形式,同时会生成关于(key, key_id)的表格。 输入 参数 子参数 参数说明 i…
概述 多个数据集按照行合并为一个数据集。 输入 参数 子参数 参数说明 inputs dataframe_1 被合并的数据集一 dataframe_2 被合并的数据集二 dataframe_3 被合并的数据集三(可缺省) dataframe…
概述 用于将KV(Key:Value)格式的表为普通表格式。其中Key转换成表的某列名,Value转换成该列在对应行的值。 表格式定义 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在…