单节点物理机上多个Ray集群的GPU资源隔离问题

Zarca · 2023 年1 月 10 日 01:57

场景：要在一台含有多GPU的物理机上启动多个Ray集群
需求：保证这些多个Ray集群的GPU是互斥

2张GPU，cuda:0,cuda:1
分别启动两次

ray start --head --num-gpus 1

遇到的问题：
并不能保证这两张卡是相互隔离，两个Ray集群仍会将函数计算分配到cuda:0上,cuda:1无法被使用。

结论：
求助方便的方法使得多Ray集群相互使用不同的GPU,不会互相干扰.

Zarca · 2023 年1 月 10 日 02:17

自答一波，已经解决，GPU Support — Ray 2.2.0

OPilgrim · 2025 年8 月 5 日 08:58

楼主能再分享一次要怎么在同一个节点的两张GPU上运行ray吗？之前提供的链接失效了