华为云AI开发平台ModelArtsPyTorch迁移性能调优_云淘科技
性能调优总体原则和思路 性能调优五板斧 训练profiling工具使用 优化算子下发 优化算子执行 父主题: 训练业务昇腾迁移通用指导 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速…
共6项
性能调优总体原则和思路 性能调优五板斧 训练profiling工具使用 优化算子下发 优化算子执行 父主题: 训练业务昇腾迁移通用指导 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速…
性能调优相对来说门槛较高,对PyTorch以及昇腾AI处理器的理解越深刻,越能发挥昇腾AI处理器的计算能力,从而提高训练性能。一般情况下,通过对PyTorch代码做profiling,从而基于数据分析,调整代码,尽可能发挥硬件能力,但在做p…
PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用(OP-based),即通过Python与C++调用CANN层接口Ascend Computing Language(AscendCL)调用一个或几个亲和算子组合的形式,代替…
五板斧操作之后,如果性能仍然不满足要求,便需要通过profiling工具采集性能数据,基于数据分析是哪个环节、哪个算子导致的性能消耗,进而做性能优化。 目前有两种方式采集训练profiling数据:Ascend PyTorch Profil…
当发现NPU上有大量相邻算子之间有时间间隙出现时,代表算子下发的速度太慢导致NPU空等,NPU算力没有充分发挥,如下图所示。 图1 算子之间的时间间隙 优化该场景有三个思路: 加速算子下发。常用的优化方法有进程绑核(详见性能调优五板斧)、启…
优化算子执行有两个思路: 减少不必要的算子执行。比如减少不必要的格式转换算子和存储转连续算子。 加速慢算子的执行速度。遇到此类问题,尝试基于AOE调优(详见性能调优五板斧)或者联系华为工程师分析处理。 图1 优化思路 减少不必要的算子执行 …