华为云AI开发平台ModelArts训练作业性能降低_云淘科技
问题现象
使用ModelArts平台训练算法训练耗时增加。
原因分析
可能存在如下原因:
平台上的代码经过修改优化、训练参数有过变更。
训练的GPU硬件工作出现异常。
处理方法
请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。
检查资源分配情况(cpu/mem/gpu/snt9/infiniband)是否符合预期。
通过CloudShell登录到Linux工作页面,检查GPU工作情况:
通过输入“nvidia-smi”命令,查看GPU工作是否异常。
通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。
父主题: 训练作业性能问题
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家