卡方独立性检验目前仅支持在MLStudio镜像内运行,不支持发布到dli。 概述 卡方独立性检验是检验两个变量之间是否存在相关性。一般认为这两个变量是分类变量,我们认为两者之间是不相关的,可以通过检验来确定该看法。 输入 参数 子参数 参数…
概述 利用训练好的gbdt分类模型对输入的特征进行离散化处理。对每棵树的叶子节点进行编码,预测的时候遍历到叶子节点对应位置的编码为1,该树其余节点的编码为0。该节点主要用于读取gbdt编码模型训练阶段保存的模型,并对数据进行离散化编码。 输…
概述 使用PyTorch实现的多层感知机分类算法,可运行于异构资源池上。 该算子通过cuda自动判断GPU是否可用。若GPU可用,优先使用GPU训练;否则使用CPU训练。 输入 参数 参数说明 train_url train_url为存储模…
概述 swing是一个i2i的召回算法,基于User-Item-User图结构的推荐算法。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型…
概述 承接分词结果,获取各个文档中的关键词。 原理 该算法基于TextRank,依据的PageRank算法思想,将滑动窗口内的共现词汇对儿当做相连接的节点构建网络,计算节点的价值(即单词的重要性)并排序,数值高的单词即为该文本的关键词。 T…
概述 协方差,在概率论与统计学中用于衡量随机变量的联合变化程度。正态形式的协方差大小可以显示变量之间线性关系的强弱,如:皮尔逊相关系数。但是协方差的数值大小也取决于变量的大小。协方差矩阵是多个变量之间的协方差所构成的矩阵表示形式。方差是协方…
概述 对文本数据进行分词。 该算法基于HanLP,对文本列进行分词,标注词性,并支持识别实体、机构、人名、电话号码、中英文日期、中英文时间,过滤全符号、全英文或全数字结果等,自定义词典或自定义合并的词词性标注为”nz”…
概述 孤立森林(Isolation Forest),简称为iForest,用于挖掘异常(Anomaly)数据,从数据中找出与其它数据的规律不符合的数据。通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。 输入 参数…
概述 通过给定一个缺省值的配置表,来实现将输入表的缺省值或固定值填充为定义的值。 将数值型的空值替换为最大值,最小值,均值或者一个自定义的值。 将字符串类型、日期类型的空值、或者固定值,替换为一个自定义的值。 数值型替换可以自定义,也可以直…
读取DLI表 读取数据 读取模型 从OBS读取CSV数据 从OBS读取模型 读取parquet数据 读取文本数据 读CSV文件 父主题: 输入输出 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想…