华为云AI开发平台ModelArts日志提示“RuntimeError: connect() timed out”_云淘科技

问题现象 使用pytorch进行分布式训练时,出现如下错误: 图1 错误日志 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据拷贝的,每个节点拷贝的速度不是同一个时间完成的,然后有的节点没有拷贝完,其他节点进行torch.di…
共6项
问题现象 使用pytorch进行分布式训练时,出现如下错误: 图1 错误日志 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据拷贝的,每个节点拷贝的速度不是同一个时间完成的,然后有的节点没有拷贝完,其他节点进行torch.di…
问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’ 2.‘No CUDA-c…
问题现象 训练作业失败,日志报出如下错误: 图1 错误日志 原因分析 可以从以下角度排查: 请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行c…
问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multipro…
日志提示”No CUDA-capable device is detected” 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10…
问题现象 训练作业运行出现如下报错: failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练…