华为云AI开发平台ModelArtsTensorflow多节点作业下载数据到/cache显示No space left_云淘科技

问题现象

创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。

原因分析

TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。​如果ps也下载数据到“/cache”实际下载的数据会翻倍。​例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。

处理方法

在使用Tensorflow多节点作业下载数据时,正确的下载逻辑如下:

import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--job_name", type=str, default="")
args = parser.parse_known_args()

if args[0].job_name != "ps":
    copy..............................

父主题: 内存限制故障

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家