华为云AI开发平台ModelArtsMXNet创建kvstore时程序被阻塞,无报错_云淘科技

问题现象

使用kv_store = mxnet.kv.create(‘dist_async’)方式创建“kvstore”时程序被阻塞。如,执行如下代码,如果无法输出“end”,表明程序阻塞。

print('start')
kv_store = mxnet.kv.create('dist_async')
print('end')

原因分析

worker阻塞的原因可能是连不上server。

处理方法

将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。

import os
os.environ['PS_VERBOSE'] = '2'
os.environ['PS_RESEND'] = '1'

其中,“os.environ[‘PS_VERBOSE’] = ‘2’”为打印所有的通信信息。“os.environ[‘PS_RESEND’] = ‘1’”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息,Van实例会重发消息。

父主题: 业务代码问题

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家