问题现象 部署为在线服务,服务处于运行中状态,预测时报错:{ “erno”: “MR.0105”, “msg”: “Recognition failed&#…
问题现象 已购买专属资源池,但创建Notebook时该资源池不可选择,无法创建Notebook。 提示当前专属资源池未初始化开发环境,请到专属资源池页面初始化开发环境。 原因分析 新购买的专属资源池,需要初始化环境才能用于创建Noteboo…
问题现象 训练作业运行时下载失败,出现如下报错,请参见图1: ERROR:modelarts-downloader.py: Get object key failed: ‘Contents’ 图1 获取内容失败 原因分析 在创建训练作业时指…
问题现象 在程序运行过程中,刷出大量错误日志”write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误,具体见下面截图: 图1 错误日志 原因分析 出现该问题的可能原因如下: 程序运…
问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析 出现该问题的可能原因如下: multipro…
问题现象 多机或多卡使用“tf.variable”会造成以下错误:WARNING:tensorflow:Gradient is None for variable:v0/tower_0/UNET_v7/sub_pixel/Variable:…
训练作业卡死检测定位 拷贝数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专…
问题现象 使用TensorFlow框架编写的模型,在运行模型转换任务时,任务失败,且报错日志信息如下: 解决方法 针对模型转换失败的任务,请根据如下排除指导进行排查。 检查当前帐号是否具备转换任务中“转换输入目录”和“转换输出目录”的权限。…
OBS操作相关故障 云上迁移适配故障 内存限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题 同意关联代理商云淘科…
问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources are …