概述 文本TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库出现的频率成反比下降。文本TF-IDF用于展示文本基于词频统计的…
概述 三元组转kv,用于将三元组表转换为kv表,三元组表为(row, key, value)的形式,kv表为(row, [key_id:value])的形式,同时会生成关于(key, key_id)的表格。 输入 参数 子参数 参数说明 i…
概述 LDA主题分析模型(Latent Dirichlet Allocation),由Blei等人于2003年提出的无监督学习算法,可以按照概率分布的形式给出文档集中每篇文档的主题,在文本挖掘领域,应用于文本主题识别、文本分类和文本相似度计…
概述 对文本数据按照标点符号进行句子拆分。 该算法按照既定标点符号等进行句子拆分,并将标点符号保留在句末(给定标点符号不单独成行),一篇文章拆分成多行输出。 输入 参数 子参数 参数说明 inputs input_table 输入表表名 输…
概述 抽取文本中的部分原句作为文本的摘要。 该算法按照既定标点符号等进行句子拆分,基于TextRank思想求出可代表该文档的句子作为其摘要。 输入 参数 子参数 参数说明 inputs input_table 输入表表名 输入参数说明 参数…
TF-IDF 文本词向量 词频统计 文章相似度 字符串相似度 字符串相似度topN NGram Count PMI 关键词抽取 原子分词 文本TF-IDF 三元组转kv 文本分类 LDA 句子拆分 文本摘要 停用词过滤 语义相似距离 父主题…
概述 停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的D…
概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明…
概述 词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafr…
概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…