如何加速 ray.get() 从另一个节点获取大对象?

【Ray使用环境】生产
【Ray版本和类库】ray2.9.3,python3.8.10
【使用现场】

    def pull_model_on_tick(self):
        msg = build_get_model_msg("SINGLE", self._league_id, 0, -1)
        # model 是 tuple
        model = ray.get(self._model_buffer.put_msg.remote(msg))

        if model is None:
            return False
        # model_value 是 ray.ObjectRef
        model_meta, model_value = model

        if model_meta.step != self._current_train_model_steps:
            if isinstance(model_value, ray.ObjectRef):
                t = time.time()
                # model_value 是 800MB 模型,通过ray.get()将远程节点的对象拉到本actor所在节点,有时这里的ray.get()延迟在1s左右、有时会超时2min
                model_value = ray.get(model_value)
                self._logger.info(f"get model_value time: {time.time() - t}")

            self._model = model
            self._current_train_model_steps = model_meta.step
        return

    # 因为前面已经通过pull_model_on_tick()将模型拉到本地gcs了,那么本actor所在节点的其它actor调用get_model()应该就不需要再从其它节点拉了
    def get_model(self):
        return self._model

【问题复现】
—出现的问题描述
一共2个节点(head和worker节点),1个head节点负责生成800MB模型、上面actor通过ray.put()保存到 object store,返回值object引用返回给worker节点的actor,worker节点上的actor再通过ray.get()拉取到worker节点,worker节点上其它actor再通过引用获取模型就不需要再从head节点拉了,相当于是想通过ray.get()实现从远程head节点预取大对象功能。但上面ray.get()有时候1s左右但有时候会超过2min,2min是什么原因呢?有没有其它加速手段,比如put时候指定强制同步到其它worker节点?

—期待的结果
ray.get() 800MB 对象维持在1s内