关于高并发remote时,触发gRPC的too_many_pings报错

Ray版本1.12.1, py版本3.8.10,在5s内触发超过500个remote任务时,出现too_many_pings报错,未修改GRPC_KEEPALIVE_TIME_MS参数(还是原有的30s),请问有没有大佬帮忙解答一下需要怎么调整参数,来避免高并发任务时出现此类报错?(除了reTry之外,目前就是用的重试的方式来临时解决)

能否提供一个段最小复现的代码?另外请贴一下完整的报错信息。

目前单机情况下我没法复现这个bug,目前是5个节点150核,单个任务执行约2.3s,一次性并发发布1000个任务,每个任务num_cpus=0.2 .
worker.err中内容:
:task_name:nvhProcFunc
:task_name:nvhProcFunc
E0306 10:47:11.437788926 20171 chttp2_transport.cc:1103] Received a GOAWAY with error code ENHANCE_YOUR_CALM and debug data equal to “too_many_pings”

没有其他报错信息

翻了下issue,社区很早已经修复过这个问题了,参考 [Core] Suppress gRPC server alerting on too many keep-alive pings,需要您升级下版本

nice! 确实如此,我升级测试一下,非常感谢!