问题现象 训练作业运行出现如下报错: failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析 根据错误信息判断,报错原因为训练…
问题现象 训练作业在运行时提示URL连接超时,具体报错如下: urllib.error.URLERROR: 原因分析 由于安全性问题在ModelArts上不能联网下载。 处理方法 如果在运行训练作业时提示连接超时,请您将需要联网下载的数据提…
日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时 父主题: 训练作业 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联…
问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:9…
问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法拷贝至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否…
问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten…
问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version is 1.14.5.Please upgrade numpy to >= 1.1…
问题现象 使用moxing适配OBS路径,然后用较高版本的pandas读取OBS文件报出如下错误: 1.‘can’t decode byte xxx in position xxx’ 2.‘OSError:File isn’t open f…
问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91, [the model stream execute failed] …
问题现象 在使用pytorch1.0镜像时,必现如下报错: “RuntimeError: std::exception” 原因分析 出现该问题的可能原因如下: pytorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体…