团队介绍
蚂蚁AI Infra分布式计算Ray团队,以跟加州伯克利大学RISELAB实验室合作开发的开源分布式计算引擎Ray(https://github.com/ray-project/ray) 为通用底盘,打造下一代大规模分布式AI计算基础设施与生态。我们承载了蚂蚁100w+核的在线和离线AI计算任务,支撑着公司内大模型在线服务、AIGC应用、搜索推荐、函数计算、在线机器学习、离线推理、图计算、多媒体计算、运筹优化、隐私计算等多种业务场景。
我们所属的Ray团队,以跟加州伯克利大学RISELAB实验室合作开发的分布式计算引擎Ray为通用底盘,打造下一代大规模分布式计算引擎与生态产品,服务于数字金融、网商科技、安全风控、知识图谱、科学计算、在线学习、图计算、隐私计算、运筹计算等蚂蚁大部分业务与技术场景。
欢迎对技术有极致的追求和热爱,对分布式系统、大规模任务调度、大规模数据传输、高性能计算、内存计算、AI-Infra 等感兴趣的同学加入我们。
职位描述
1.负责面向大规模分布式环境对Ray引擎进行定制开发,系统架构设计、性能优化、功能改进以及问题诊断与解决;包括但不限于以下方向:多语言分布式编程框架、资源调度、组件通信、共享内存对象存储、运行时环境构建、故障恢复等;
2.参与基于K8S的Ray平台化能力建设,包括云原生部署、资源弹性、可观测性、产品化等能力;
3.探索Ray及其AI生态在企业内部创新与落地,为公司AI发展提供Infra支持;
4.参与Ray开源社区建设,通过讨论、文档撰写、代码贡献等形式推动Ray在AI及分布式计算领域的发展与创新。
职位要求
必须具备的:
- 本科及以上学历,计算机、数学、通信、自动化等相关专业,硕士或博士学位者优先;
- 精通至少一种编程语言,如Python、C++或Java,并具备出色的软件工程能力;
- 拥有至少一种分布式系统的设计、优化和性能调优经验。
可以加分的:
- 有在Ray或相关开源项目上的开发经验,对Ray内部原理有深入理解和实际操作经验;
- 熟悉主流的计算引擎(如Spark、Flink、Dask等)、调度引擎(K8S、Yarn等)、分布式应用框架(Dapr等);
- 熟悉大模型相关前沿技术,有大模型训练、推理、应用服务和AI Agent等方向的实践经验;
- 作为重要角色在ACM/ICPC、topcoder等编程竞赛中获奖经历;
- 良好的科研能力,有成果发表在国际顶级会议、期刊,担当一作。
如有意向欢迎联系邮箱 wumuzi520@126.com 或微信 wumuzi520