使用KubeRay,同时每个RayJob启用AutoScaler,导致多个RayJob有资源申请瓶颈

【Ray使用环境】生产
【Ray版本和类库】Ray 2.3.0 & Xbgoost
【使用现场】
我们创建了一个有10几个结点的K8s集群,同时使用KubeRay & AutoScaler。用户通过Http接口创建RayJob,RayJob启动后,会自动创建集群,如果资源不足,会使用AutoScaler动态申请资源,此时多个RayJob可能会死锁。

【问题复现】
—做过哪些操作
—出现的问题描述
—期待的结果
想请问一下,如果出现这种场景,大家一般会如何处理?

这个可能要从quota和任务管理的角度去优化了,或者k8s上找些支持gang scheduling 的二层调度框架。