求助,ray cpu任务越跑越慢的可能原因

最近用ray多进程来处理数据,制定了32个worker, 一共1000个任务。刚启动的时候一直32个进程一起运行还正常。当完成的任务到700-800时候,ray的worker都变成了ray::IDLE挂载起来了。只是慢慢的有一个active的worker在继续处理,处理速度变的特别慢。这个可能的原因是什么呢?为什么ray调度中心不再调度32个worker一起处理数据了?查看资料看到资源不足情况会有问题。这个改怎么排查?

建议可以在ray dashboard上观测下,看执行缓慢时,是否有资源不足的情况,包括object store剩余容量等


整体上看资源还可以,就都变成ray::IDLE进程了。
我看log里gcs_job_manager.cc:229: Failed to get is_running_tasks from core worker: GrpcUnavailable: RPC Error message: failed to connect to all addresses; last error: UNKNOWN会有这种错误。
以及你知道Global stats: 3744864 total (1 active) 里Global stats后面的数值是代表的什么。感谢你的建议