华为云AI开发平台ModelArts使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed_云淘科技

问题现象

弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用GPU裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出现读取速度变慢的现象,并且SFS提示报错”rpc_check_timeout:939 callbacks suppressed”。

原因分析

根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核就会打印”rpc_check_timeout:939 callbacks suppressed”.日志。这个日志只是说明某个 IO 处理时间超过 1 分钟了,不会造成数据丢失。客户端有重试机制,等峰值过去后,所有 IO 最终都会正确处理。所以理论上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。

处理方法

结合当前购买的SFS盘性能规划业务, 建议不要运行到性能上限。
可以购买多个SFS Turbo实例分担业务压力, 或者更换高性能的SFS盘。
一个SFS实例容量建议不要太大,建议以同样的成本换成购买多个SFS实例。

父主题: FAQ

同意关联代理商云淘科技,购买华为云产品更优惠(QQ 78315851)

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家