单节点物理机上多个Ray集群的GPU资源隔离问题

场景:要在一台含有多GPU的物理机上启动多个Ray集群
需求:保证这些多个Ray集群的GPU是互斥

2张GPU,cuda:0,cuda:1
分别启动两次

ray start --head --num-gpus 1 

遇到的问题:
并不能保证这两张卡是相互隔离,两个Ray集群仍会将函数计算分配到cuda:0上,cuda:1无法被使用。

结论:
求助方便的方法使得多Ray集群相互使用不同的GPU,不会互相干扰.

自答一波,已经解决,GPU Support — Ray 2.2.0

1 Like