华为云AI开发平台ModelArts通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题_云淘科技
使用场景
本文指导用户通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题。
操作步骤
在ModelArts控制台,选择“训练管理>训练作业”,在训练作业详情页面,在右侧的CloudShell页签,登录训练容器(训练作业需处于运行中)。
安装py-spy工具。
# 通过utils.sh脚本自动配置python环境 source /home/ma-user/modelarts/run/utils.sh # 安装py-spy pip install py-spy # 若超时提示 connection broken by 'ProxyError('Cannot connect to proxy.'),一般是用户设置了proxy需要先关掉 export no_proxy=$no_proxy,repo.myhuaweicloud.com(此处需要替换成对应局点的pip源地址) pip install py-spy
查看堆栈。py-spy工具具体使用方法可参考py-spy官方文档。
# 找到训练进程的PID ps -ef # 查看进程 12345 的进程堆栈 # 如果是 8 卡的训练作业,一般用此命令依次去查看主进程起的对应的 8 个进程的堆栈情况 py-spy dump --pid 12345
父主题: CloudShell
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家