问题现象 在安装其他包的时候,有依赖冲突,对numpy库有其他要求,但是发现numpy卸载不了。出现如下类似错误: your numpy version is 1.14.5.Please upgrade numpy to >= 1.1…
问题现象 调用moxing.file.copy_parallel()将文件从开发环境拷贝到桶里,但是桶内没有出现目标文件。 使用MoXing复制数据不成功,出现报错。如: ModelArts开发环境使用MoXing复制OBS数据报错:key…
问题现象 在使用Notebook过程中,界面出现“ModelArts.6333”报错信息。 原因分析 可能由于实例过负载引起故障,Notebook正在自动恢复中,请刷新页面并等待几分钟。常见原因是内存占用满。 处理方法 当出现此错误时,No…
问题现象 训练作业保存模型时日志报错,具体信息如下: InternalError (see above for traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错…
问题现象 在现有镜像基础上,重新装了引擎版本,或者编译了新的CUDA包,出现如下错误: 1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten…
问题现象 ModelArts训练作业算法来源选用常用框架的Pytorch引擎,在训练作业运行时Pytorch Mox日志会每个epoch都打印Mox版本,具体日志如下: INFO:root:Using MoXing-v1.13.0-de80…
问题现象 在云服务器执行以下命令查看系统当前版本: /etc/redhat-release 得到当前云服务器版本为CentOS 7.6。但在控制台使用的镜像为CentOS 7.2(或者低于7.6的其他版本)。 本节操作适用于CentOS、E…
问题现象 ping公网域名失败,提示Name or service not known,但可以ping通弹性公网IP。 根因分析 出现该问题通常有三个原因: /etc/resolv.conf未配置DNS地址或者DNS地址错误导致。 /etc…
问题描述 更换云服务器密钥对,删除旧的密钥对时,无法使用新的密钥对登录云服务器。 处理方法 登录Linux云服务器上制作密钥对,首先用密码或旧的密钥登录到待更换密钥对的云服务器,然后执行以下命令: [root@host ~]$ ssh-ke…
操作场景 本节操作介绍Linux云服务器切换密钥登录为密码登录的操作步骤。 操作步骤 使用密钥登录Linux云服务器,设置root密码。 sudo passwd root 若密钥文件丢失或损坏,请参考Linux云服务器如何进入单用户模式重置…