PyTorch迁移性能调优 – 华为云河南代理-西数云-郑州云淘科技有限公司

性能调优总体原则和思路性能调优五板斧训练profiling工具使用优化算子下发优化算子执行父主题：训练业务昇腾迁移通用指导同意关联代理商云淘科技，购买华为云产品更优惠（QQ 78315851）内容没看懂？不太想学习？想快速…

2023.11.11 139 0

性能调优相对来说门槛较高，对PyTorch以及昇腾AI处理器的理解越深刻，越能发挥昇腾AI处理器的计算能力，从而提高训练性能。一般情况下，通过对PyTorch代码做profiling，从而基于数据分析，调整代码，尽可能发挥硬件能力，但在做p…

2023.11.11 316 0

PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用（OP-based），即通过Python与C++调用CANN层接口Ascend Computing Language（AscendCL）调用一个或几个亲和算子组合的形式，代替…

2023.11.11 132 0

五板斧操作之后，如果性能仍然不满足要求，便需要通过profiling工具采集性能数据，基于数据分析是哪个环节、哪个算子导致的性能消耗，进而做性能优化。目前有两种方式采集训练profiling数据：Ascend PyTorch Profil…

2023.11.11 141 0

当发现NPU上有大量相邻算子之间有时间间隙出现时，代表算子下发的速度太慢导致NPU空等，NPU算力没有充分发挥，如下图所示。图1 算子之间的时间间隙优化该场景有三个思路：加速算子下发。常用的优化方法有进程绑核（详见性能调优五板斧）、启…

2023.11.11 151 0

优化算子执行有两个思路：减少不必要的算子执行。比如减少不必要的格式转换算子和存储转连续算子。加速慢算子的执行速度。遇到此类问题，尝试基于AOE调优（详见性能调优五板斧）或者联系华为工程师分析处理。图1 优化思路减少不必要的算子执行 …

2023.11.11 178 0

标签： PyTorch迁移性能调优