华为云AI开发平台ModelArtsTensorFlow在OBS写入TensorBoard到达5GB时停止_云淘科技
问题现象
ModelArts训练作业出现如下报错:
Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum allowed object size.:
If the signature check failed. This could be because of a time skew. Attempting to adjust the signer
原因分析
OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。
处理方法
如果在运行训练作业的过程中出现该问题,建议处理方法如下:
推荐使用本地缓存的方式来解决,使用如下方法:
import moxing.tensorflow as mox mox.cache()
父主题: OBS操作相关故障
同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)
内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家