关于“RayCore&RayClusters”类别
|
|
0
|
262
|
December 14, 2022
|
提交的job的执行顺序不是先到先得,后提交的任务先运行
|
|
0
|
32
|
January 3, 2025
|
[求助] 不同网络下ray节点无法工作(丢失心跳导致node被标为dead)
|
|
1
|
151
|
December 18, 2024
|
求助,ray cpu任务越跑越慢的可能原因
|
|
3
|
644
|
November 21, 2024
|
求助,kuberay的ray cluster怎么加载本地的大模型
|
|
0
|
120
|
November 19, 2024
|
ray集群800节点规模,head节点gcs内存泄露
|
|
0
|
202
|
November 13, 2024
|
所有rayserve一直处于DEPLOYING ,重启head节点后才能恢复
|
|
0
|
145
|
September 20, 2024
|
节点崩溃的可能原因有什么
|
|
0
|
199
|
September 6, 2024
|
求助,为何我的任务只在head里面执行?
|
|
0
|
234
|
September 2, 2024
|
求助,使用k8s安装kuberay 的问题
|
|
1
|
326
|
July 24, 2024
|
ray worker节点资源oom问题
|
|
0
|
472
|
July 16, 2024
|
如何加速 ray.get() 从另一个节点获取大对象?
|
|
0
|
386
|
May 24, 2024
|
actor传输过程中会有残余的隐性内存占用,阻碍后续程序运行?怎么彻底清除内存呢?
|
|
25
|
2306
|
May 23, 2024
|
Failed to download runtime_env file package
|
|
5
|
976
|
May 22, 2024
|
【PlacementGroup】PlacementGroup的Resize能力支持,目前有什么计划或考虑吗?
|
|
0
|
362
|
April 22, 2024
|
调用ray的c++ api,在在不同节点间传输large data(例如4GB大小),适合用什么数据类型?目前采用vector,太大会报错。另外,速度非常的慢,比起python传输numpy数据,慢了几百倍。
|
|
1
|
400
|
April 18, 2024
|
runtime_env container启动报错
|
|
0
|
319
|
April 17, 2024
|
ray task 在同一个 node 上共享内存
|
|
0
|
411
|
March 13, 2024
|
使用KubeRay,同时每个RayJob启用AutoScaler,导致多个RayJob有资源申请瓶颈
|
|
1
|
460
|
December 13, 2023
|
现在ray支持在slurm或者其他batch命令模式起来的集群上进行autoscale吗?
|
|
1
|
419
|
December 13, 2023
|
使用ray client连接远程ray集群,提交shell命令,在ray节点上执行报错
|
|
1
|
757
|
December 13, 2023
|
ray-dashboard启动异常
|
|
1
|
741
|
December 13, 2023
|
ray 有job queue这类功能么,以及如何实现像 优先级任务调度?
|
|
1
|
621
|
December 13, 2023
|
不运行任何job的时候,Ray集群节点中的内存使用率过高
|
|
2
|
1331
|
November 6, 2023
|
如何在资源不足时,提升RayTask进程复用的能力,而不是执行结束后立即回收进程?
|
|
2
|
589
|
November 6, 2023
|
ray系统日志中raylet.log gcs_server.log是否支持日志回滚
|
|
3
|
709
|
November 6, 2023
|
ray C++ 如何多个同样的任务运行在同一个集群
|
|
6
|
1178
|
November 6, 2023
|
Ray如何限制一个job的资源
|
|
2
|
856
|
November 6, 2023
|
XGBoost_ray 比原生xgboost慢
|
|
2
|
472
|
September 13, 2023
|
worker进程崩溃报错
|
|
1
|
474
|
August 14, 2023
|