问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a…
问题现象 创建AI应用成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的AI应用时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。…

问题现象 ModelArts训练作业使用MoXing拷贝数据较慢。 重复打印日志 INFO:root:Listing OBS。 图1 重复打印日志 原因分析 拷贝数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭…
出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 父主题: 模型发布 同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851) 内容没看懂? 不太…
当提示空间不足时,推荐使用EVS类型的Notebook实例。 参考如何在Notebook中上传下载OBS文件?操作指导,针对原有的Notebook,首先将代码和数据上传至OBS桶中。然后创建一个EVS类型的Notebook,将此OBS中的文…
问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of bounds nanosecond ti…
问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法 获取一个OBS文…
问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified key does not exist. 原因…

问题现象 在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed to optimizer: learning_rate…
问题现象 在部署在线服务时,状态显示为“告警”。 解决方法 使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下3个角度进行排查,并重新部署。 后台预测请求过多。 如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请…