使用ray的版本2.3.1, 使用kuberay 在k8s环境启动的ray集群。
客户端通过ray.init(address=“headip:port”)连接到ray集群提交任务,使用ray train训练模型是,任务报错退出了,但是ray集群节点的内存和显存不释放。
查看dashboard的节点监控:
查看job,发现job都已经结束了:
查看actor,发现actor也都已经dead了
进入节点内top 发现很多的ray traine的进程都在:
这是ray的bug吗
使用ray的版本2.3.1, 使用kuberay 在k8s环境启动的ray集群。
客户端通过ray.init(address=“headip:port”)连接到ray集群提交任务,使用ray train训练模型是,任务报错退出了,但是ray集群节点的内存和显存不释放。
查看dashboard的节点监控:
查看job,发现job都已经结束了:
查看actor,发现actor也都已经dead了
进入节点内top 发现很多的ray traine的进程都在:
这是ray的bug吗
这个看起来是有问题的,试试最新的版本有这个问题吗?