AI开发平台ModelArts – 第 106 页 – 华为云河南代理-西数云-郑州云淘科技有限公司

概述对文本数据进行分词。该算法基于HanLP，对文本列进行分词，标注词性，并支持识别实体、机构、人名、电话号码、中英文日期、中英文时间，过滤全符号、全英文或全数字结果等，自定义词典或自定义合并的词词性标注为”nz&#8221…

2023.05.16 149 0

概述孤立森林（Isolation Forest），简称为iForest，用于挖掘异常（Anomaly）数据，从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析，金融机构则用于挖掘出欺诈行为。输入参数…

2023.05.16 152 0

概述通过给定一个缺省值的配置表，来实现将输入表的缺省值或固定值填充为定义的值。将数值型的空值替换为最大值，最小值，均值或者一个自定义的值。将字符串类型、日期类型的空值、或者固定值，替换为一个自定义的值。数值型替换可以自定义，也可以直…

2023.05.16 125 0

读取DLI表读取数据读取模型从OBS读取CSV数据从OBS读取模型读取parquet数据读取文本数据读CSV文件父主题：输入输出同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）内容没看懂？不太想…

2023.05.16 154 0

概述将数据压缩后到本地文件系统。输入参数子参数参数说明 inputs dataframe inputs为字典类型，dataframe为pyspark中的DataFrame类型对象输出无参数说明参数子参数参数说明 dat…

2023.05.16 130 0

概述文本TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库出现的频率成反比下降。文本TF-IDF用于展示文本基于词频统计的…

2023.05.16 140 0

概述皮尔森系数是一种线性相关系数，用于反映两个变量线性相关程度的统计量。选择输入的dataframe中的两列数值列，计算其皮尔森系数。输入参数子参数参数说明 inputs dataframe inputs为字典类型，datafra…

2023.05.16 132 0

分类聚类评估推荐回归文本时间序列父主题：预置算子说明同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）内容没看懂？不太想学习？想快速解决？有偿解决：联系专家

2023.05.16 143 0

概述三元组转kv，用于将三元组表转换为kv表，三元组表为(row, key, value)的形式，kv表为(row, [key_id:value])的形式，同时会生成关于(key, key_id)的表格。输入参数子参数参数说明 i…

2023.05.16 119 0

概述百分位是统计学术语，用于计算数据表列数据的百分位。可以将一组数据从小到大排序，并计算相应数据的百分位，则某百分位所对应数据的值称为该百分位的百分位数。输入参数子参数参数说明 inputs dataframe inputs为字典…

2023.05.16 137 0

分类： AI开发平台ModelArts