华为云AI开发平台ModelArts字符串相似度topN_云淘科技
概述
支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataDF |
inputs为字典类型,dataDF是输入字符串集合,数据类型是pyspark中的DataFrame类型对象 |
inputs |
paramDF |
paramDF是输入的被映射的字符串集合,数据类型是pyspark中的DataFrame类型对象 |
输出
DataRame
参数说明
参数名 |
参数类型 |
是否必选 |
参数含义 |
默认值 |
---|---|---|---|---|
inputSelectedColName1 |
String |
是 |
输入表被选字段名称。 当该字段为空时,dataDF中第一个string类型的字段。 |
无 |
mapSelectedColName2 |
String |
是 |
map表被选字段名称。 当该字段为空时,paramDF中第一个string类型的字段。 |
无 |
inputAppendColNamesStr |
String |
否 |
输入表添加的其他字段名称,涉及多个字段以逗号分隔。 |
无 |
inputAppendRenameColNamesStr |
String |
否 |
输入表添加的其他需要rename字段映射关系。 |
colName1:colReName1,colName2:colReName2 |
mapAppendColNamesStr |
String |
否 |
map表添加的其他字段名称,涉及多个字段以逗号分隔。 |
无 |
mapAppendRenameColNamesStr |
String |
否 |
map表添加的其他需要rename字段映射关系。 |
colName1:colReName1,colName2:colReName2 |
outputColName |
String |
否 |
输出的字段名称。 |
dist |
method |
String |
是 |
字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim |
cosine |
lambda |
Double |
否 |
SSK需要的参数。 |
0.5 |
k |
Int |
否 |
SSK需要的参数。 |
10 |
kVec |
Int |
否 |
SimHashHamming字符向量的大小。 |
64 |
b |
Int |
否 |
minhash分桶大小。 |
100 |
seed |
Int |
否 |
minhash随机hash函数的种子。 |
0 |
topN |
Int |
否 |
最相似的TopN字符串。 |
10 |
subLen |
Int |
否 |
粗排时,最小子串大小。 |
1 |
样例
数据样本
str1 51校园app 51校园app下载 51校园app下载官网
配置流程
运行流程
设置参数全部是默认参数。
输出结果
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家