1请先搜索,在提问哦,搜索的过程也是提炼明确问题的过程,如果没有找到相关的问题和答案,建议按照以下模板清晰的描述问题!
2问题模板
【Ray使用环境】kuberay cluster
【Ray版本和类库】2.4.0
【使用现场】
【问题复现】
大量的任务都卡在这个状态,开始运行时并发打的比较满,运行一段时间后并发就开始下降了。我这里所有的任务资源设置都是 20Gmemory,1cpu 所以不会出现碎片化导致的无法调度。在并发下降期间,我的cluster node上的 cpu和memory 都是非常充足的,但是资源只是用了10%
我的任务因为会产生比较大的内存,但是他是完全可以放到 obj store中的,所以在运行期间会发现 obj store 长期处于80%-95% 左右,需要依靠 gc 才能清理掉。我观察了现象 并未发生 spill 所以 gc是可靠的。
【补充】相关截图/链接/日志/监控等信息