概述 计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量(例如word2vec生产的词向量,或者doc2vec生产的文章向量)。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。 输入 参数 子参数 参数说明…
概述 词频统计是指统计一个字符串中,出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面,用以统计分词后各个单词的出现次数。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,datafr…
概述 支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的Data…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。 输入 参数 子参数 参数说明 inputs dataDF i…
概述 支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度 输入 参数 子参数 参数说明 inputs dataDF in…
概述 将分词后的句子生成连续N个词的NGram短语,并进行全局个数的统计,支持权重列输入。 输入 参数 子参数 参数说明 inputs input_table 输入表表名,输入的包含分词后的句子的数据表;必填; inputs vocab_t…
概述 “文本词向量”节点用于将词和句/段落映射到一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。 输入 参数 子参…
概述 “词频-逆文档频率”节点主要功能是计算某个词对于所属文档的重要程度。词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)算法规定某个词语的重要性与它在一个文档中出现的次…