ray trian训练模型使用gpu,但是raytrainworker跑到了cpu节点

csaimd · 2023 年12 月 13 日 12:17

1.通过kuberay创建ray集群。
2.集群配置：
是个弹性伸缩的ray集群，有两种类型的节点，cpu类型的和gpu类型的。
head 4C 8G
group-worker1: 8C 32G min=1, max=4
group-worker2: 8C 32G min=0, max=2

报错现象：
提交任务的时候集群中只有1个cpu类型的worker节点，
用ray trainer训练的时候正常应该是pending,等待gpu节点扩出来，,但是实际现象任务跑到了cpu节点，然后报错。

集群dashboard：

用例

SongGuyang · 2023 年12 月 18 日 06:29

看起来是gpu的调度参数没有生效，可以检查下dashboard上的actor是不是真的没有设置上gpu资源。如果社区最新release有相同的问题，可以github提个issue