使用ray train 任务报错结束后,节点的内存和显存不释放

使用ray的版本2.3.1, 使用kuberay 在k8s环境启动的ray集群。

客户端通过ray.init(address=“headip:port”)连接到ray集群提交任务,使用ray train训练模型是,任务报错退出了,但是ray集群节点的内存和显存不释放。
查看dashboard的节点监控:

查看job,发现job都已经结束了:

查看actor,发现actor也都已经dead了

进入节点内top 发现很多的ray traine的进程都在:

这是ray的bug吗

这个看起来是有问题的,试试最新的版本有这个问题吗?