华为云AI开发平台ModelArts日志提示“RuntimeError: connect() timed out”_云淘科技
问题现象 使用pytorch进行分布式训练时,出现如下错误: 图1 错误日志 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据拷贝的,每个节点拷贝的速度不是同一个时间完成的,然后有的节点没有拷贝完,其他节点进行torch.di…
共1项
问题现象 使用pytorch进行分布式训练时,出现如下错误: 图1 错误日志 原因分析 出现该问题的可能原因如下: 如果在此之前是有进行数据拷贝的,每个节点拷贝的速度不是同一个时间完成的,然后有的节点没有拷贝完,其他节点进行torch.di…