华为云AI开发平台ModelArts字符串相似度topN_云淘科技

概述

支持cosine、levenshtein、jaccard、最长公共子序列、minhash_sim、ssk、simhash_hamming_sim七种方法计算 文章的相似度

输入

参数

子参数

参数说明

inputs

dataDF

inputs为字典类型,dataDF是输入字符串集合,数据类型是pyspark中的DataFrame类型对象

inputs

paramDF

paramDF是输入的被映射的字符串集合,数据类型是pyspark中的DataFrame类型对象

输出

DataRame

参数说明

参数名

参数类型

是否必选

参数含义

默认值

inputSelectedColName1

String

输入表被选字段名称。

当该字段为空时,dataDF中第一个string类型的字段。

mapSelectedColName2

String

map表被选字段名称。

当该字段为空时,paramDF中第一个string类型的字段。

inputAppendColNamesStr

String

输入表添加的其他字段名称,涉及多个字段以逗号分隔。

inputAppendRenameColNamesStr

String

输入表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

mapAppendColNamesStr

String

map表添加的其他字段名称,涉及多个字段以逗号分隔。

mapAppendRenameColNamesStr

String

map表添加的其他需要rename字段映射关系。

colName1:colReName1,colName2:colReName2

outputColName

String

输出的字段名称。

dist

method

String

字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim

cosine

lambda

Double

SSK需要的参数。

0.5

k

Int

SSK需要的参数。

10

kVec

Int

SimHashHamming字符向量的大小。

64

b

Int

minhash分桶大小。

100

seed

Int

minhash随机hash函数的种子。

0

topN

Int

最相似的TopN字符串。

10

subLen

Int

粗排时,最小子串大小。

1

样例

数据样本

str1
51校园app
51校园app下载
51校园app下载官网

配置流程

运行流程

设置参数全部是默认参数。

输出结果

父主题: 文本

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家