华为云AI开发平台ModelArts字符串相似度topN_云淘科技

5 月 16, 2023

128 0

支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算文章的相似度

参数	子参数	参数说明
inputs	dataDF	inputs为字典类型，dataDF是输入字符串集合，数据类型是pyspark中的DataFrame类型对象
inputs	paramDF	paramDF是输入的被映射的字符串集合，数据类型是pyspark中的DataFrame类型对象

DataRame

参数名	参数类型	是否必选	参数含义	默认值
inputSelectedColName1	String	是	输入表被选字段名称。当该字段为空时，dataDF中第一个string类型的字段。	无
mapSelectedColName2	String	是	map表被选字段名称。当该字段为空时，paramDF中第一个string类型的字段。	无
inputAppendColNamesStr	String	否	输入表添加的其他字段名称，涉及多个字段以逗号分隔。	无
inputAppendRenameColNamesStr	String	否	输入表添加的其他需要rename字段映射关系。	colName1:colReName1,colName2:colReName2
mapAppendColNamesStr	String	否	map表添加的其他字段名称，涉及多个字段以逗号分隔。	无
mapAppendRenameColNamesStr	String	否	map表添加的其他需要rename字段映射关系。	colName1:colReName1,colName2:colReName2
outputColName	String	否	输出的字段名称。	dist
method	String	是	字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim	cosine
lambda	Double	否	SSK需要的参数。	0.5
k	Int	否	SSK需要的参数。	10
kVec	Int	否	SimHashHamming字符向量的大小。	64
b	Int	否	minhash分桶大小。	100
seed	Int	否	minhash随机hash函数的种子。	0
topN	Int	否	最相似的TopN字符串。	10
subLen	Int	否	粗排时，最小子串大小。	1

数据样本

str1
51校园app
51校园app下载
51校园app下载官网

配置流程

运行流程

设置参数全部是默认参数。

输出结果

父主题： 文本

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

分类