ray集群800节点规模,head节点gcs内存泄露

1、运行环境:
python 3.6.5
ray 2.3.1
kubernetes 1.18
2. 问题描述
通过yaml文件手动在k8s集群中创建了1个head节点+800个worker节点的ray集群,先创建head pod,然后通过deployment创建800个worker pod, worker pod通过head pod的ip加入集群, 在不提交任何任务的情况下,head pod 32G的内存一直增长,进入到容器内,查看后主要是gcs使用 的内存一直增长,最终head pod oom了。
head pod节点配置:8C 32G
启动命令ulimit -n 65536; ray start --head --block --no-monitor --dashboard-host=0.0.0.0 --metrics-export-port=20001 --dashboard-agent-grpc-port=20002 --num-cpus 0 --memory 33554432 --num-gpus 0
worker节点配置:1C 1G
worker节点启动命令:ulimit -n 65536; ray start --block --address=$HEAD_IP:6379 --metrics-export-port=20001 --dashboard-agent-grpc-port=20002 --num-cpus 1 --memory 1048576 --num-gpus 0
运行过程中head pod 的内存一直增长:

但是同样的配置,启动400个worker pod,内存使用就很稳定,只要5G多,如下图监控: