问题现象 训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败,该作业节点会被自动隔离,需要重启…
问题现象 使用kv_store = mxnet.kv.create(‘dist_async’)方式创建“kvstore”时程序被阻塞。如,执行如下代码,如果无法输出“end”,表明程序阻塞。 print(‘start…
问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed to optimizer: learning_rate…
问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of bounds nanosecond ti…
问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a…
问题现象 训练过程中出现如下报错: DataFrame.dtypes for data must be int, float or bool 原因分析 出现该问题的可能原因如下: 训练数据中出现了非int、float、bool类型数据。 处…
问题现象 训练过程中出现如下报错: TypeError: ‘(slice(0, 13184, None), slice(None, None, None))’ is an invalid key 原因分析 出现该问题的可能原因如下: 切分数…
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试…
问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError: Error tokenizing data. C error: Expected 4 field 原因分…
问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “RuntimeError:max_pool2d_with_indices_out_cuda_frame fail…