概述 对数据集指定的某些列做全表统计,包括元素总数、null值个数、nan值个数、最小值、最大值、方差、标准差等。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中…
概述 将数据集按照比例或阈值拆分为两个子数据集。 输入 参数 子参数 参数说明 inputs dataframe pyspark中DataFrame类型的对象 输出 参数 子参数 参数说明 output output_port_1 outp…
概述 “二值化”节点用于将数值型的字段转换成二值化形式。 例如:数据集中有一列整型数据属性为“Age”,取值为:“20-40”,设置阈值为30。二值化后当“Age”小于等于“30”时,“Age”这一列的取值就为“0”;当“Age”大于“30…
概述 保存parquet格式的数据到本地文件系统。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 无 参数说明 参数 子参数 …
概述 “K-均值”节点用于产生聚类模型,用户在使用时需要指定聚类个数。K-均值算法是基于距离的算法,将所有数据归类到其最邻近的中心。 输入 参数 子参数说明 参数说明 inputs dataframe inputs为字典类型,datafra…
概述 “文本词向量”节点用于将词和句/段落映射到一个向量,可用来表示词与词之间或句与句之间的关系。该算法基于Skip-gram模型利用词语来预测它的上下文,并表示为向量形式,可应用于社交网络中的推荐系统、文本相似度等场景。 输入 参数 子参…
本地和OBS数据交互 # 拷贝本地目录到OBS > python manage.py copy –source /home/ma-user/work/my_dir –dest obs://my_bucket/my_dir/ # 拷…
from modelarts.algo_kits import Model model = Model( env, model_name=”mmdetection:fcos/fcos_r50_caffe_fpn_gn-head_1x_coc…
执行ma-cli dli-job stop命令停止DLI Spark作业。 $ ma-cli dli-job stop -h Usage: ma-cli dli-job stop [OPTIONS] Stop DLI spark job b…
在使用PyCharm ToolKit之前,您需要根据如下操作指导完成在PyCharm中的安装配置。 前提条件 本地已安装2019.2及以上版本的PyCharm社区版或专业版。 使用PyCharm ToolKit远程连接Notebook开发环…