使用kuberay部署ray,ray==2…4.0 python==3.7.15
我们使用kuberay创建了一个ray集群,通过Ray job api向ray集群提交job运行脚本,我们想实现对每个job限制资源,比如cpu和gpu这种。
我知道在脚本内部,使用placement group可以限制task/actor的资源,但脚本内使用ray air api的时候,无法使用placement group来限制。
请问有什么办法可以实现job级别的资源限制和隔离吗?
我甚至设置过一个规定了placement group的task,在其中运行使用ray air的代码,结果可想而知是不可行的。
我们的目的是想实现多个场景不同程序下的资源保障和隔离,如果这种方式不可行的话,是不是只能为每个算法启动一个ray cluster来解决了?