问题现象 多机或多卡使用“tf.variable”会造成以下错误:WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:…
问题现象 训练作业运行失败,返回错误码139,如下图所示: 图1 错误码信息 原因分析 出现该问题的可能原因如下 pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import…
问题现象 在pytorch镜像运行分布式作业时,设置NCCL日志级别,代码如下: import os os.environ[“NCCL_DEBUG”] = “INFO” 会出现如下错误: 图1 错误日志 原因分析 可能原因如下: 原因1:未…
问题现象 训练作业日志运行出现如下报错:Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP。 原因分析 由于batch size过大,导致D…
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cud…
问题现象 代码在Notebook的keras镜像中可以正常运行,在训练模块使用tensorflow.keras训练报错时,出现如下报错:AttributeError: ‘NoneType’ object has no…
问题现象 从mindspore开源gitee中master分支下下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name ‘unidecode’。 原因分…
问题现象 使用kv_store = mxnet.kv.create(‘dist_async’)方式创建“kvstore”时程序被阻塞。如,执行如下代码,如果无法输出“end”,表明程序阻塞。 print(‘start…
问题现象 训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败,该作业节点会被自动隔离,需要重启…
问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError:max_pool2d_with_indices_out_cuda_frame fail…