ray是不是支持故障恢复?如果执行task的节点oom了,该task不应该是转移到其他正常的节点重新执行吗?为什么测试下来,发现了driver端报错了。

问题模板
【Ray使用环境】测试环境
【Ray版本和类库】ray版本 1.12.1
【使用现场】
—文本代码 header配置为1C 1G ,worker配置为1G 1G
下图为计算任务
image
提交到ray cluster
【问题复现】
—做过哪些操作 提交任务后,报错如下:ray.exceptions.WorkerCrashedError:The worker died unexpectedly while executing this task.Check python-core-worker-*.log files for more information.
—出现的问题描述 ray难道不是支持故障恢复吗?如果执行task的节点oom了,该task不应该是转移到其他正常的节点重新执行吗?为什么测试下来,发现了driver端报错了。
—期待的结果
如果执行task节点oom了,是不是会持续转移到其他节点计算,而不会driver端报错。

也可以把链接发到群里,让更多人看到你的求助信息

需要设置max_retries https://docs.ray.io/en/latest/ray-core/tasks/fault-tolerance.html#retries

请问Java 代码如何设置max retries

看了下代码,好像java好像没有暴露这个接口,我们可以支持下。

1 Like