ray集群调度过程中如何支持内存配额策略,类似cgroup 的 memory limit

【Ray使用环境】生产
【Ray版本和类库】2.2.0; ray core and ray cpp
【使用现场】
—运行环境 Ray ON VM
—文本代码 C++ Distributed program
【问题复现】
—做过哪些操作
—出现的问题描述
—期待的结果
【补充】相关截图/链接/日志/监控等信息

cgroup的支持已经多次在社区群里被提到,但目前ray还没有相关的支持。这个问题属于ray runtime environments的范畴,我曾经在社区提交过一个REP设计过相关的功能,但当时没有在社区达成一致,所以后续没有相关进展。在蚂蚁内部,我们的资源隔离是通过将worker运行在一个podman container里实现的,跟cgroup的支持有些overlapping,但对运行环境的要求比较高。

但无论是cgroup还是container,目前社区版本都没有支持(或不可用)。我们会根据用户的需求考虑是否在开源去建设这块儿能力,但目前没有明确的规划。

另外社区支持的oom monitor可以在一定程度上解决内存隔离的问题],大家也可以根据自己的需求试用。