华为云AI开发平台ModelArtsTensorFlow在OBS写入TensorBoard到达5GB时停止_云淘科技

问题现象

ModelArts训练作业出现如下报错:

Encountered Unknown Error EntityTooLarge
Your proposed upload exceeds the maximum allowed object size.:
If the signature check failed. This could be because of a time skew. Attempting to adjust the signer

原因分析

OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。

处理方法

如果在运行训练作业的过程中出现该问题,建议处理方法如下:

推荐使用本地缓存的方式来解决,使用如下方法:

import moxing.tensorflow as mox
mox.cache()

父主题: OBS操作相关故障

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家