问题现象 训练作业mox的Tensorflow版本在运行的时候,会先执行“50steps” 4次,然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch(warmup),由于网络的参数是随机初始化的,如果一开始就采用较大…

当Notebook出现无法执行时,您可以根据如下几种情况判断并处理。 如果只是Cell的执行过程卡死或执行时间过长,如图1中的第2个和第3个Cell,导致第4个Cell无法执行,但整个Notebook页面还有反应,其他Cell也还可以点击,…
问题现象 ModelArts训练作业出现如下报错: Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum allowed obje…
问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91, [the model stream execute failed] …
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试…

问题现象 训练作业运行失败,日志中出现如下类似报错: [Modelarts Service Log]Training end with return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动…
问题现象 通过OBS创建AI应用构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pyp…
问题现象 调用moxing.file.copy_parallel()将文件从开发环境拷贝到桶里,但是桶内没有出现目标文件。 使用MoXing复制数据不成功,出现报错。如: ModelArts开发环境使用MoXing复制OBS数据报错:key…
当出现此错误时,一般情况是由于帐号的配额受限导致的。 在自动学习项目中,启动部署后,会自动将模型部署为一个在线服务,如果由于配额限制(即在线服务的个数超出配额限制),导致无法将模型部署为服务。此时会在自动学习项目中提示“部署上线任务提交失败…
问题现象 训练作业保存模型时日志报错,具体信息如下: InternalError (see above for traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错…