概述 向量召回评估算子计算召回的hitrate,用于评估召回结果的好坏,hitrate越高表示训练产出的向量去召回向量的结果越准确。支持u2i召回和i2i召回的计算。u2i召回时,拿user(用户)的向量去召回top k个items(物品)…
概述 承接分词结果,计算一个文档里单词两两之间的互信息值(PMI)。PMI计算公式如下: 相关概念解释: 共现对儿:一句话里面如果两个词在句子里的距离小于等于定义的滑动窗口大小,则这两个词共现形成共现对儿。 P(x,y):x,y为两个词,P…
Notebook的JupyterLab中提供了多种方式上传文件。 上传文件要求 对于大小不超过100MB的文件直接上传,并展示文件大小、上传进度及速度等详细信息。 对于大小超过100MB不超过5GB的文件可以使用OBS中转,系统先将文件上传…
用户通过自定义算子功能,可以实现个性化的算子编写。 用户单击“新增自定义算子”图标,新建并打开一个模板算子,即一个算子编辑器(相当于Ipython Notebook的一个cell),输入自定义算子名称,即可以在新建的算子编辑器里面实现自定义…
概述 设置数据集的元数据信息。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数 参数说明 col…
概述 根据用户输入的桶的个数,按照分位数分桶,将用户指定的某个数值列离散化。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数…
概述 读取parquet格式的数据。 输入 无 输出 数据集 参数说明 参数 参数说明 input_file_path parquet数据文件所在的路径 样例 params = { “input_file_path”: “” # @para…
概述 “朴素贝叶斯”节点用于产生多分类模型,用户在使用时需要指定数据的“Role”字段,默认支持“Input”、“Target”、“Rejected”、“ID”四种类型,且只能选择其一种。 朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的…
概述 ALS(交替最小二乘)是一种求解矩阵分解问题的最优化方法。 “交替最小二乘”节点用于推荐,它通过矩阵分解手段快速实现用户对物品评分的预测。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dat…
ma-cli是基于cookiecutter开发的用于管理工程的命令行工具,它支持创建一个算法模板工程并一键式安装ModelArts算法套件等。 了解算法工程模板 算法工程模板结构如下: your-project-name ├── algor…