ray trian训练模型使用gpu,但是raytrainworker跑到了cpu节点

1.通过kuberay创建ray集群。
2.集群配置:
是个弹性伸缩的ray集群,有两种类型的节点,cpu类型的和gpu类型的。
head 4C 8G
group-worker1: 8C 32G min=1, max=4
group-worker2: 8C 32G min=0, max=2

报错现象:
提交任务的时候集群中只有1个cpu类型的worker节点,
用ray trainer训练的时候正常应该是pending,等待gpu节点扩出来,,但是实际现象任务跑到了cpu节点,然后报错。

集群dashboard:

用例

看起来是gpu的调度参数没有生效,可以检查下dashboard上的actor是不是真的没有设置上gpu资源。如果社区最新release有相同的问题,可以github提个issue