华为云AI开发平台ModelArts通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题_云淘科技

使用场景

本文指导用户通过py-spy工具分析卡死进程的调用栈并结合代码分析定位卡死问题。

操作步骤

在ModelArts控制台,选择“训练管理>训练作业”,在训练作业详情页面,在右侧的CloudShell页签,登录训练容器(训练作业需处于运行中)。
安装py-spy工具。

# 通过utils.sh脚本自动配置python环境
source /home/ma-user/modelarts/run/utils.sh

# 安装py-spy
pip install py-spy

# 若超时提示 connection broken by 'ProxyError('Cannot connect to proxy.'),一般是用户设置了proxy需要先关掉
export no_proxy=$no_proxy,repo.myhuaweicloud.com(此处需要替换成对应局点的pip源地址)
pip install py-spy

查看堆栈。py-spy工具具体使用方法可参考py-spy官方文档。

# 找到训练进程的PID
ps -ef

# 查看进程 12345 的进程堆栈
# 如果是 8 卡的训练作业,一般用此命令依次去查看主进程起的对应的 8 个进程的堆栈情况
py-spy dump --pid 12345

父主题: CloudShell

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家