TF-IDF 文本词向量 词频统计 文章相似度 字符串相似度 字符串相似度topN NGram Count PMI 关键词抽取 原子分词 文本TF-IDF 三元组转kv 文本分类 LDA 句子拆分 文本摘要 停用词过滤 语义相似距离 父主题…
概述 停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的D…
概述 将普通的table表转为KV(Key:Value)格式的表。 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但…
概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明…
概述 多个数据集按照行合并为一个数据集。 输入 参数 子参数 参数说明 inputs dataframe_1 被合并的数据集一 dataframe_2 被合并的数据集二 dataframe_3 被合并的数据集三(可缺省) dataframe…
概述 用于将KV(Key:Value)格式的表为普通表格式。其中Key转换成表的某列名,Value转换成该列在对应行的值。 表格式定义 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在…
ARIMA Auto ARIMA 父主题: 模型工程 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家
概述 分层采样是一种数据采样算法,依据数据集中某一代表数据类别的列,按照数量或比例对不同类别的数据进行采样。 算法实现采用spark自带的sample函数,采样数量会存在一定误差(按比例采样和按数量采样均会存在)。 输入 参数 子参数 参数…
概述 过滤式特征选择根据特征对标签的重要性对特征进行筛选,特征重要性较高的特征,提升训练的精度和效率。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataF…
概述 读CSV文件支持从LOCAL、OBS、HDFS读取CSV类型的文件数据。 输入 无 输出 表1 参数 子参数 参数说明 output output_port_1 output为字典类型,output_port_1为pyspark中的D…