业务代码问题 – 华为云河南代理-西数云-郑州云淘科技有限公司

AI开发平台ModelArts

华为云AI开发平台ModelArts日志提示“no socket interface found”_云淘科技

问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ[“NCCL_DEBUG”] = “INFO” 会出现如下错误：图1 错误日志原因分析可能原因如下：原因1：未…

2023.11.24 188 0

AI开发平台ModelArts

华为云AI开发平台ModelArts分布式Tensorflow无法使用“tf.variable”_云淘科技

问题现象多机或多卡使用“tf.variable”会造成以下错误：WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:…

2023.11.24 108 0

AI开发平台ModelArts

华为云AI开发平台ModelArts训练作业失败，返回错误码139_云淘科技

问题现象训练作业运行失败，返回错误码139，如下图所示：图1 错误码信息原因分析出现该问题的可能原因如下 pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import…

2023.11.24 139 0

AI开发平台ModelArts

华为云AI开发平台ModelArts日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP”_云淘科技

问题现象训练作业日志运行出现如下报错：Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP。原因分析由于batch size过大，导致D…

2023.04.03 143 0

AI开发平台ModelArts

华为云AI开发平台ModelArts业务代码问题_云淘科技

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cud…

2023.04.03 135 0

AI开发平台ModelArts

华为云AI开发平台ModelArts日志提示“AttributeError: ‘NoneType’ object has no attribute ‘dtype’”_云淘科技

问题现象代码在Notebook的keras镜像中可以正常运行，在训练模块使用tensorflow.keras训练报错时，出现如下报错：AttributeError: ‘NoneType’ object has no…

2022.12.24 133 0

AI开发平台ModelArts

华为云AI开发平台ModelArts日志提示“No module name ‘unidecode’”_云淘科技

问题现象从mindspore开源gitee中master分支下下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name ‘unidecode’。原因分…

2022.12.24 154 0

AI开发平台ModelArts

华为云AI开发平台ModelArtsMXNet创建kvstore时程序被阻塞，无报错_云淘科技

问题现象使用kv_store = mxnet.kv.create(‘dist_async’)方式创建“kvstore”时程序被阻塞。如，执行如下代码，如果无法输出“end”，表明程序阻塞。 print(‘start…

2022.12.08 139 0

AI开发平台ModelArts

华为云AI开发平台ModelArts日志出现ECC错误，导致训练作业失败_云淘科技

问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败，该作业节点会被自动隔离，需要重启…

2022.12.08 229 0

AI开发平台ModelArts

华为云AI开发平台ModelArts日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0”_云淘科技

问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “RuntimeError:max_pool2d_with_indices_out_cuda_frame fail…

2022.12.08 145 0

标签：业务代码问题

分类

近期文章

近期评论

友情链接

分类目录

标签： 业务代码问题

分类

近期文章

近期评论

友情链接

分类目录

标签：业务代码问题