华为云AI开发平台ModelArts从0到1利用ML Studio进行机器学习建模_云淘科技

本章节基于餐厅销量预测场景,从零开始介绍如何制作销售销量训练及销售销量预测两个算链。

前提条件

已经创建一个基于ML Studio的Notebook镜像,并进入MLS Editor可视化编辑界面,具体参考进入ML Studio操作界面章节。

Step1 创建一个空算链

单击Launcher界面的MLS Editor,选择名为PySpark-2.4.5的Kernel,创建一个空的算链。

创建算链后,左侧界面自动跳转到资产预览界面。

图1 算链创建成功

Step2 使用ML Studio建模

从左侧资产浏览界面拖拽预置算子或自定义算子至右侧算链编辑界面,如图2所示,则创建算子成功。

图2 拖拽创建结点

在画布中,鼠标移至算子结点,从右侧输出端口,如图3所示,拖动连线至下一个算子结点,鼠标尽量放置至如图4 连线结束位置所示红框位置。

图3 从输出端口移动至下一结点

图4 连线结束位置

进行算子连线。

算子之间具有数据的流入流出关系,若源算子与目标算子的输出输入端口数量都为1,则直接连线,如图4所示。

鼠标右键单击读取数据算子,选择“设置参数”,如图5所示在右侧滑出的参数设置窗口填写输入路径, 例如“/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast/sales_train.csv”,表示读取文件为该路径下的“sales_train.csv”。

图5 读取数据参数设置

若源算子和目标算子其中一个及以上具有多个输出输入端口,连线时需选择输入输出端口,如图6所示。

数据集分割算子连线随机森林回归算子,数据集分割算子具有输出端口datafram_1和dataframe_2,点击下拉框选择dataframe1为输出端口,随机森林回归算子只有输入端口dataframe,该步操作将数据dataframe1传入随机森林回归算子作为训练数据。

图6 数据集分割连线随机森林回归

右键单击随机森林回归算子,选择“设置参数”,在滑出的参数设置窗口填写标签列为“revenue”,如图7所示。

图7 随机森立回归参数设置

如图8所示,随机森林回归连线模型应用,随机森林回归算子输出pipeline_model传入模型应用算子, 作为模型应用算子的输入模型。

图8 随机森林回归连线模型应用

模型应用算子的dataframe由数据集分割算子的dataframe_2输入,如图9所示。

图9 数据集分割连线模型应用

添加回归评估算子作为评估算子,将其与模型应用连线,右键选择设置参数,填写标签列为“revenue”,如图10所示。

图10 回归评估参数设置

最后添加保存模型算子,将其与随机森林回归算子连线,右键该算子选择参数设置,如图11所示。填写模型保存路径(文件夹级)”./output/SalesForecast”,表示输出模型保存到根目录下output/SalesForecast文件下。

图11 保存模型参数设置

算链创建完成,单击运行,耐心等待几分钟,运行成功,如图12所示。

图12 算链运行成功

若运行失败,双击失败算子或者右键该算子选择编辑代码,如图13所示。在编辑算子代码界面可修改代码进行调试,如图14所示 。

图13 右键选择编辑代码

图14 编辑代码

Step3 使用ML Studio预测

新建一个预测算链。
拖拽读取模型算子至画布,设置“input_model_path”,为预测算链中保存模型路径,例如“./output/SalesForecast”。
拉取读取数据算子,设置“input_file_path”,为测试数据的文件路径,如“/home/ma-user/work/.ml-workspace/built-in-workflow/sales_forecast/sales_predict.csv”。
拉取模型应用算子,分别连接读取模型算子和读取数据算子,端口选择分别如图15和如图16所示。

图15 从读取模型算子连接模型应用算子

图16 从读取数据算子连接模型应用算子

最终预测算链如图17所示。单击运行,得到并查看预测运行结果。

图17 运行预测算链

父主题: ML Studio快速入门

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家