华为云AI开发平台ModelArts字符串相似度_云淘科技
概述
支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算字符串的相似度。
输入
参数 |
子参数 |
参数说明 |
---|---|---|
inputs |
dataDF |
inputs为字典类型,dataDF是输入字符串集合,数据类型是pyspark中的DataFrame类型对象 |
inputs |
paramDF |
paramDF是输入的被映射的字符串集合,数据类型是pyspark中的DataFrame类型对象 |
输出
DataRame
参数说明
参数名 |
参数类型 |
是否必选 |
参数含义 |
默认值 |
---|---|---|---|---|
inputSelectedColName1 |
String |
是 |
输入表被选第一个字段名称 |
无 |
inputSelectedColName2 |
String |
是 |
输入表被选第二个字段名称 |
无 |
inputAppendColNamesStr |
String |
否 |
输入表添加的其他字段名称,涉及多个字段以逗号分隔 |
无 |
inputAppendRenameColNamesStr |
String |
否 |
输入表添加的其他需要rename字段映射关系 |
colName1:colReName1,colName2:colReName2 |
outputColName |
String |
否 |
输出的字段名称 |
distance |
method |
String |
是 |
字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim |
cosine |
lambda |
Double |
否 |
SSK需要的参数 |
0.5 |
k |
Int |
否 |
SSK需要的参数 |
10 |
kVec |
Int |
否 |
SimHashHamming字符向量的大小 |
64 |
b |
Int |
否 |
minhash分桶大小 |
10 |
seed |
Int |
否 |
minhash随机hash函数的种子 |
0 |
样例
数据样本
str1,str2 51校园app,51校园app 51校园app,51校园app下载 51校园app,51校园app下载官网
配置流程
运行流程
设置参数
全部是默认参数。
输出结果
父主题: 文本
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家