ma-cli dli-job upload命令支持将本地文件或OBS文件上传到DLI资源组。 $ ma-cli dli-job upload -h Usage: ma-cli dli-job upload [OPTIONS] PATHS…..
在AI开发过程中,如何将文件方便快速地上传到Notebook几乎是每个开发者都会遇到的问题。 ModelArts之前对文件直接上传到Notebook的大小限制是100MB,超过限制的文件无法直接上传;其次需要上传的文件并不都在本地,可能是G…
概述 对数据集的某些列,进行分桶,即直方图统计。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 统计结果数据集 参数说明 参数…
概述 对数据集指定的某些列做全表统计,包括元素总数、null值个数、nan值个数、最小值、最大值、方差、标准差等。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中…
概述 将数据集按照比例或阈值拆分为两个子数据集。 输入 参数 子参数 参数说明 inputs dataframe pyspark中DataFrame类型的对象 输出 参数 子参数 参数说明 output output_port_1 outp…
概述 “二值化”节点用于将数值型的字段转换成二值化形式。 例如:数据集中有一列整型数据属性为“Age”,取值为:“20-40”,设置阈值为30。二值化后当“Age”小于等于“30”时,“Age”这一列的取值就为“0”;当“Age”大于“30…
概述 保存parquet格式的数据到本地文件系统。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 …
概述 “K-均值”节点用于产生聚类模型,用户在使用时需要指定聚类个数。K-均值算法是基于距离的算法,将所有数据归类到其最邻近的中心。 输入 参数 子参数说明 参数说明 inputs dataframe inputs为字典类型,datafra…
概述 “文本词向量”节点用于将词和句/段落映射到一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。 输入 参数 子参…
本地和OBS数据交互 # 拷贝本地目录到OBS > python manage.py copy –source /home/ma-user/work/my_dir –dest obs://my_bucket/my_dir/ # 拷…