华为云AI开发平台ModelArts开源大模型基于ModelArts的一键推理部署_云淘科技
本文为您介绍如何通过AI Gallery订阅开源大模型并在ModelArts控制台上进行推理部署。
场景介绍
ModelArts针对当前主流的开源大模型做了昇腾芯片和MindSpore引擎的适配工作,用户可以使用昇腾Snt9b芯片进行模型的训练或推理部署。当前支持的开源大模型列表如表1所示。
序号 |
模型 |
引擎 |
AI Gallery地址 |
---|---|---|---|
1 |
ChatGLM-6B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=f228a049-f466-4473-ba24-e46edb309dc3 |
2 |
ChatGLM2-6B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=7556d643-7b38-4f7f-83c5-68ca83826b0a |
3 |
Llama-7B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=28296844-2788-4096-9ee7-34ed8eebcb0c |
4 |
Llama2-7B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=203383e5-9a2b-466c-a510-2fe8a460a5eb |
5 |
Llama-13B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=8bbdbe7d-1aa3-4fab-bb5e-d698e9e450ba |
6 |
Llama2-13B |
MindSpore |
https://developer.huaweicloud.com/develop/aigallery/model/detail?id=88fbe3a1-45fc-4564-80be-c2d54e62321c |
本文以“ChatGLM-6B”模型为例,介绍如何在AI Gallery上订阅模型,并一键部署到ModelArts上进行推理预测。表1中的模型在ModelArts上的使用流程没有任何差异,均可参考此教程操作。
约束限制
模型的推理部署建议使用“西南-贵阳一”Region上的昇腾Snt9b芯片。
操作流程
开始使用如下样例前,请务必按准备工作指导完成必要操作。
Step1 申请并订阅模型:在AI Gallery中订阅开源大模型。
Step2 部署模型并推理预测:在ModelArts上部署模型,并进行推理预测。
Step3 清理资源:体验完成后,停止服务,避免不必要的资源浪费。
准备工作
开始进行体验前,请仔细阅读以下准备工作,并完成必要操作。
已注册华为帐号并开通华为云,进行了实名认证,且在使用ModelArts前检查帐号状态,帐号不能处于欠费或冻结状态。
注册华为帐号并开通华为云
进行实名认证
个人用户推荐使用人脸识别认证。
若无中国大陆身份证,可使用其他证件认证,并需等待三个工作日审核。
Step1 申请并订阅模型
开源大模型共享在AI Gallery中。您可以前往AI Gallery,免费申请订阅此模型。
在AI Gallery的模型页面,申请模型使用权限。模型的具体地址如表1所示,此处以ChatGLM-6B为例。单击“申请”,根据提示提交联系方式。预计1-2个工作日完成订阅权限开通。
权限申请通过后,在模型详情页,单击“订阅”,阅读并勾选同意《数据安全与隐私风险承担条款》 和 《华为云AI Gallery服务协议》,单击“继续订阅”。
订阅模型完成后,页面的“订阅”按钮显示为“已订阅”。
图1 已订阅模型
在模型详情页,单击“前往控制台”,并在弹出的“选择云服务区域”窗口选择“西南-贵阳一”,单击“确定”,跳转至ModelArts控制台的“AI应用管理 > AI应用 > 我的订阅”页面。
图2 选择云服务区域
在ModelArts控制台的“AI应用管理 > AI应用 > 我的订阅”页面,找到刚订阅“ChatGLM-6B”模型并选中,在下方的“版本列表”页签,可以看到系统正在同步该模型。当模型的状态显示为“就绪”时,表示模型已经订阅成功,可以部署在线服务,如图3。
图3 模型同步就绪
Step2 部署模型并推理预测
模型订阅成功后,可将此模型部署为在线服务,进行预测。
在“AI应用管理 > AI应用 > 我的订阅”页面,选中订阅的资产,在下方的“版本列表”页签中单击“部署 > 在线服务”跳转至部署页面。
图4 部署模型
由于模型版本在持续迭代更新,此处创建在线服务时,请选择最新版本。
在部署页面,选择“资源池”为“公共资源池”,其他参数可以使用默认值。
图5 部署在线服务
关键参数解释如下:
“名称”:自定义一个在线服务的名称,也可以使用默认值。
“资源池”:当前订阅的模型仅支持选择“公共资源池”。
“AI应用来源”:系统会自动选择“我的订阅”。
“选择AI应用及版本”:系统会自动选择订阅的模型和版本。
“计算节点规格”:系统会自动选择Ascend单卡,例如:“Ascend: 1*xxx”,1表示单卡。
“计算节点个数”:系统自动设置为“1”,表示当前仅支持单机单卡,暂不支持分布式推理。
参数配置完成后,单击“下一步”,确认规格参数后,单击“提交”,提示在线服务的部署任务提交成功。
图6 提交部署任务
如果在线服务提交失败,提示“ModelArts.3520: 在线服务服务数量超限,限制为20”,表示当前已部署的在线服务数量超出配额,请参考FAQ处理。
单击“查看服务详情”,进入“在线服务”详情页面,等待服务状态变为“运行中”时,表示服务部署成功。
图7 等待服务部署成功
在“预测”页签,在输入栏输入JSON Prompt请求体,如{“prompt”:”Hello world”},单击“预测”查看预测结果。
因为模型规模较大,部署状态变成“运行中”后,建议等待10-20分钟,后台编译成功后再进行预测。
图8 预测输入及结果
Step3 清理资源
体验结束后,建议暂停或删除服务,避免占用资源,造成资源浪费。
停止在线服务:在“在线服务”列表,单击对应服务操作列的“更多 > 停止”。
删除在线服务:在“在线服务”列表,单击对应服务操作列的“更多 > 删除”。
父主题: 昇腾应用教程
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家