华为云AI开发平台ModelArts文章相似度_云淘科技
概述
支持cosine、levenshtein、jaccard和最长公共子序列四种方法计算文章的相似度。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataframe |
inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 |
输出
DataRame
参数说明
参数名 |
参数类型 |
是否必选 |
参数含义 |
默认值 |
---|---|---|---|---|
inputSelectedColName1 |
String |
是 |
输入表被选第一个字段名称 |
无 |
inputSelectedColName2 |
String |
是 |
输入表被选第二个字段名称 |
无 |
inputAppendColNames |
String |
否 |
输入表添加的其他字段名称, 涉及多个字段以逗号分割 |
无 |
outputColName |
String |
否 |
输出的字段名称 |
output |
method |
String |
是 |
字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim |
cosine |
样例
数据样本
doc1,doc2 浩瀚 的 太平洋 潮起 潮落,见证 风云变幻 、世事 沧桑 。伴随 世界 经济 重心 逐步 东移 , 亚太 地区 吸引 越来越多 的 全球 目光 。,浩瀚 的 太平洋 潮起 潮落,见证 风云变幻 、世事 沧桑 。伴随 世界 经济 重心 逐步 东移 , 亚太 地区 吸引 越来越多 的 全球 目光 。
配置流程
运行流程
输出结果
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家