使用add_node和remove_node在头节点上添加和删除节点

https://docs.ray.io/en/latest/_modules/ray/cluster_utils.html 文档里面显示有提供 add_node 和 remove_node 函数。
请问是否可能在一个已经运行的cluster的head node上使用这两个函数通过ip地址添加和移除node?在不重启其他node的情况下

  • 你的意思是在已经起来的 ray 集群的 head 节点上,在一个新开的 python 进程里面用 cluster 接口删除或者添加节点么?这个是不支持的
  • 如果你的意思是通过 cluster 拉起来的集群,然后添加和删除节点,是可以的,但是它提供的 remove_node 接口只接受 node 实例,而不是 ip address / node id

看你的描述我觉得你可能对 Cluster 这个类有误解,这个东西并不是一个全局的 cluster manager,它不能启动和杀死 pod (这是 k8s 的活),它能做的事开关进程,它更接近 LocalCluster 一点,这个集群上所有的 node(或者说 raylet 进程)都在同一个机器/pod上,就这一点来说,cluster 上所有 node 都有相同的 ip,所以你想要的通过 ip 来删除节点的操作是做不了的。