华为云AI开发平台ModelArts推理服务端到端运维_云淘科技

AI开发平台ModelArts

11 月 11, 2023

173 0

ModelArts推理服务的端到端运维覆盖了算法开发、服务运维和业务运行的整个AI流程。

方案概述

推理服务的端到端运维流程

算法开发阶段，先将业务AI数据存放到对象存储服务（OBS）中，接着通过ModelArts数据管理进行标注和版本管理，然后通过训练获得AI模型结果，最后通过开发环境构建AI应用镜像。
服务运维阶段，先利用镜像构建AI应用，接着部署AI应用为在线服务，然后可在云监控服务（CES）中获得ModelArts推理在线服务的监控数据，最后可配置告警规则实现实时告警通知。
业务运行阶段，先将业务系统对接在线服务请求，然后进行业务逻辑处理和监控设置。

图1 推理服务的端到端运维流程图

整个运维过程会对服务请求失败和资源占用过高的场景进行监控，当超过阈值时发送告警通知。

图2 监控告警流程图

方案优势

通过端到端的服务运维配置，可方便地查看业务运行高低峰情况，并能够实时感知在线服务的健康状态。

约束限制

端到端服务运维只支持在线服务，因为推理的批量服务和边缘服务无CES监控数据，不支持完整的端到端服务运维设置。

实施步骤

以出行场景的司乘安全算法为例，介绍使用ModelArts进行流程化服务部署和更新、自动化服务运维和监控的实现步骤。

图3 司乘安全算法

将用户本地开发完成的模型，使用自定义镜像在ModelArts构建成AI应用。具体操作请参考从0-1制作自定义镜像并创建AI应用。
在ModelArts管理控制台，使用创建好的AI应用部署为在线服务。
登录云监控服务CES管理控制台，设置ModelArts服务的告警规则并配置主题订阅方式发送通知。具体操作请参考设置告警规则。

当配置完成后，在左侧导航栏选择“云服务监控 > ModelArts”即可查看在线服务的请求情况和资源占用情况，如下图所示。

图4 查看服务的监控指标

当监控信息触发告警时，主题订阅对象将会收到消息通知。

图5 告警消息通知

父主题： 推理部署

同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）

内容没看懂？不太想学习？想快速解决？有偿解决：联系专家