华为云AI开发平台ModelArts训练前卡死_云淘科技
作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ[“NCCL_DEBUG”] = “INFO”,查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCC…
共1项
作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ[“NCCL_DEBUG”] = “INFO”,查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCC…