概述 LDA主题分析模型(Latent Dirichlet Allocation),由Blei等人于2003年提出的无监督学习算法,可以按照概率分布的形式给出文档集中每篇文档的主题,在文本挖掘领域,应用于文本主题识别、文本分类和文本相似度计…
概述 对文本数据按照标点符号进行句子拆分。 该算法按照既定标点符号等进行句子拆分,并将标点符号保留在句末(给定标点符号不单独成行),一篇文章拆分成多行输出。 输入 参数 子参数 参数说明 inputs input_table 输入表表名 输…
概述 抽取文本中的部分原句作为文本的摘要。 该算法按照既定标点符号等进行句子拆分,基于TextRank思想求出可代表该文档的句子作为其摘要。 输入 参数 子参数 参数说明 inputs input_table 输入表表名 输入参数说明 参数…
TF-IDF 文本词向量 词频统计 文章相似度 字符串相似度 字符串相似度topN NGram Count PMI 关键词抽取 原子分词 文本TF-IDF 三元组转kv 文本分类 LDA 句子拆分 文本摘要 停用词过滤 语义相似距离 父主题…
概述 停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词,和一些无关词(通常由用户指定)过滤掉。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的D…
概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明…
概述 词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafr…
概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。 输入 参数 子参数 参数说明 inputs dataDF i…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度 输入 参数 子参数 参数说明 inputs dataDF in…