文本 – 华为云河南代理-西数云-郑州云淘科技有限公司

AI开发平台ModelArts

华为云AI开发平台ModelArts文本_云淘科技

TF-IDF 文本词向量词频统计文章相似度字符串相似度字符串相似度topN NGram Count PMI 关键词抽取原子分词文本TF-IDF 三元组转kv 文本分类 LDA 句子拆分文本摘要停用词过滤语义相似距离父主题…

2023.05.16 139 0

AI开发平台ModelArts

华为云AI开发平台ModelArts停用词过滤_云淘科技

概述停用词过滤是自然言语处理中一个重要的步骤。它可以将句子中的噪声词，和一些无关词（通常由用户指定）过滤掉。输入参数子参数参数说明 inputs dataframe inputs为字典类型，dataframe为pyspark中的D…

2023.05.16 160 0

AI开发平台ModelArts

华为云AI开发平台ModelArts语义相似距离_云淘科技

概述计算距离某个向量最近的k个向量集合。这些向量通常是通过算法生产的包含语义的向量（例如word2vec生产的词向量，或者doc2vec生产的文章向量）。可以用于寻找和一个单词或者一篇文章相似的单词或者文章。输入参数子参数参数说明…

2023.05.16 143 0

AI开发平台ModelArts

华为云AI开发平台ModelArts词频统计_云淘科技

概述词频统计是指统计一个字符串中，出现了多少个单词以及这些单词出现的次数。该算子一般接在分词算子后面，用以统计分词后各个单词的出现次数。输入参数子参数参数说明 inputs dataframe inputs为字典类型，datafr…

2023.05.16 137 0

AI开发平台ModelArts

华为云AI开发平台ModelArts文章相似度_云淘科技

概述支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。输入参数子参数参数说明 inputs dataframe inputs为字典类型，dataframe为pyspark中的Data…

2023.05.16 150 0

AI开发平台ModelArts

华为云AI开发平台ModelArts字符串相似度_云淘科技

概述支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。输入参数子参数参数说明 inputs dataDF i…

2023.05.16 153 0

AI开发平台ModelArts

华为云AI开发平台ModelArts字符串相似度topN_云淘科技

概述支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算文章的相似度输入参数子参数参数说明 inputs dataDF in…

2023.05.16 125 0

AI开发平台ModelArts

华为云AI开发平台ModelArtsNGram Count_云淘科技

概述将分词后的句子生成连续N个词的NGram短语，并进行全局个数的统计，支持权重列输入。输入参数子参数参数说明 inputs input_table 输入表表名，输入的包含分词后的句子的数据表；必填； inputs vocab_t…

2023.05.16 137 0

AI开发平台ModelArts

华为云AI开发平台ModelArtsPMI_云淘科技

概述承接分词结果，计算一个文档里单词两两之间的互信息值（PMI）。PMI计算公式如下：相关概念解释：共现对儿：一句话里面如果两个词在句子里的距离小于等于定义的滑动窗口大小，则这两个词共现形成共现对儿。 P(x,y)：x,y为两个词，P…

2023.05.16 158 0

AI开发平台ModelArts

华为云AI开发平台ModelArts关键词抽取_云淘科技

概述承接分词结果，获取各个文档中的关键词。原理该算法基于TextRank，依据的PageRank算法思想，将滑动窗口内的共现词汇对儿当做相连接的节点构建网络，计算节点的价值（即单词的重要性）并排序，数值高的单词即为该文本的关键词。 T…

2023.05.16 158 0

标签：文本

分类

近期文章

近期评论

友情链接

分类目录

标签： 文本

分类

近期文章

近期评论

友情链接

分类目录

标签：文本