华为云AI开发平台ModelArtsNotebook cache盘告警上报_云淘科技

创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。

当前开发环境的cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启Notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。

配置流程

填写告警基本信息
设置告警规则

监控对象指标配置
告警触发条件设置

告警通知设置

创建主题、设置主题策略、订阅主题
创建告警行动规则
选择已创建的行动规则

告警上报配置方法

登录AOM控制台。
单击“告警 > 告警规则”,在“告警规则”界面,单击“添加告警”。
填写告警基本信息。

设置告警规则。

“规则类型”选择“阈值规则”。

“监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。

添加方式:选择“按指标维度添加”。
指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选中。例如:ma_container_notebook_cache_dir_size_bytes(cache目录的总大小)、ma_container_notebook_cache_dir_util(cache目录的利用率)
指标维度:根据实际需求选择相应的指标维度。例如service_id:xxx,然后单击“确定”。

监控对象设置完成后,选择“统计方式”和“统计周期”。

“告警条件设置”:触发条件根据实际需求设置。

图1 监控对象指标设置

图2 设置指标统计方式

图3 告警条件设置

设置告警通知,单击“立即创建”。

“告警方式”:选择“直接告警”

“行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。

“告警恢复通知”:开启开关

图4 设置告警通知

先在SMN创建一个主题,用于配置告警通知规则。更多内容请参考消息通知服务用户指南。

创建主题

进入“消息通知服务”控制台,单击“主题管理 > 主题”,进入“主题”页面。
单击“创建主题”填写主题名称,选择企业项目后,单击确定即可创建一个主题。
单击主题名称“操作”列的“更多 > 设置主题策略”。

选择APM,即允许AOM的告警触发SMN服务。

图5 设置主题策略

单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。

选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。

此时订阅总数中会出现一条记录,但是处于未确认的状态。

收到邮件后单击“订阅确认”。

此时该订阅记录将处于已确认的状态。

创建告警行动规则

行动规则即为告警触发时,AOM以怎样的方式来告知用户。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。更多详情请参考AOM用户指南。

根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”。

图6 新建告警行动规则

在之前打开的“创建告警规则”页面的告警通知区域,“行动规则”选择新创建的告警行动规则,单击“立即创建”。

至此,整个告警流程配置完成,一旦满足告警条件,那么就会收到邮件通知。

父主题: 管理Notebook实例

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家