在某些推理场景中,模型输入的shape可能是不固定的,因此需要支持用户指定模型的动态shape,并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题,因为CPU算子支持动态shape;而在Ascend场…
当发现NPU上有大量相邻算子之间有时间间隙出现时,代表算子下发的速度太慢导致NPU空等,NPU算力没有充分发挥,如下图所示。 图1 算子之间的时间间隙 优化该场景有三个思路: 加速算子下发。常用的优化方法有进程绑核(详见性能调优五板斧)、启…
下载Swin-Transformer代码。 git clone –recursive https://github.com/microsoft/Swin-Transformer.git 修改lr_scheduler.py文件,把第27行:…
优化算子执行有两个思路: 减少不必要的算子执行。比如减少不必要的格式转换算子和存储转连续算子。 加速慢算子的执行速度。遇到此类问题,尝试基于AOE调优(详见性能调优五板斧)或者联系华为工程师分析处理。 图1 优化思路 减少不必要的算子执行 …
对于中小规模团队,管理员往往希望对ModelArts资源进行主导分配,全局控制,而对于普通开发者只需关注自己实例的生命周期控制。对于开发者帐号,一般不会具有te_admin的权限,相应的权限也需要主帐号进行统一配置。本章节以使用Notebo…
给用户配置ModelArts委托授权,允许ModelArts服务在运行时访问OBS等依赖服务。 使用华为云主账号登录ModelArts的管理控制台,在左侧导航栏单击“全局配置”,进入“全局配置”页面。 单击“添加授权”。在“访问授权”页面,…
本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境…
在昇腾设备上,可能由于GPU内存墙导致在大shape下遇到性能问题,MindSporeLite提供了Flash Attention编译优化机制,可以考虑升级最新版本的MidnSporeLite Convertor来进行编译期的算子优化,在大…
确保算法在GPU训练时,持续稳定可收敛。避免在迁移过程中排查可能的算法问题,并且要有好的对比标杆。如果是NPU上全新开发的网络参考Pytorch迁移精度调优,排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中问…
使用华为云主账号创建一个开发者用户组user_group,将开发者账号加入用户组user_group中。具体操作请参见Step1 创建用户组并加入用户。 创建自定义策略。 使用华为云主账号登录控制台,单击右上角用户名,在下拉框中选择“统一身…