蚂蚁集团 — 分布式计算专家 [杭州/北京]

wumuzi520 · 2023 年5 月 31 日 06:50

团队介绍

蚂蚁AI Infra分布式计算Ray团队，以跟加州伯克利大学RISELAB实验室合作开发的开源分布式计算引擎Ray（https://github.com/ray-project/ray）为通用底盘，打造下一代大规模分布式AI计算基础设施与生态。我们承载了蚂蚁100w+核的在线和离线AI计算任务，支撑着公司内大模型在线服务、AIGC应用、搜索推荐、函数计算、在线机器学习、离线推理、图计算、多媒体计算、运筹优化、隐私计算等多种业务场景。

我们所属的Ray团队，以跟加州伯克利大学RISELAB实验室合作开发的分布式计算引擎Ray为通用底盘，打造下一代大规模分布式计算引擎与生态产品，服务于数字金融、网商科技、安全风控、知识图谱、科学计算、在线学习、图计算、隐私计算、运筹计算等蚂蚁大部分业务与技术场景。

欢迎对技术有极致的追求和热爱，对分布式系统、大规模任务调度、大规模数据传输、高性能计算、内存计算、AI-Infra 等感兴趣的同学加入我们。

职位描述

1.负责面向大规模分布式环境对Ray引擎进行定制开发，系统架构设计、性能优化、功能改进以及问题诊断与解决；包括但不限于以下方向：多语言分布式编程框架、资源调度、组件通信、共享内存对象存储、运行时环境构建、故障恢复等；
2.参与基于K8S的Ray平台化能力建设，包括云原生部署、资源弹性、可观测性、产品化等能力；
3.探索Ray及其AI生态在企业内部创新与落地，为公司AI发展提供Infra支持；
4.参与Ray开源社区建设，通过讨论、文档撰写、代码贡献等形式推动Ray在AI及分布式计算领域的发展与创新。

职位要求

必须具备的：

本科及以上学历，计算机、数学、通信、自动化等相关专业，硕士或博士学位者优先；
精通至少一种编程语言，如Python、C++或Java，并具备出色的软件工程能力；
拥有至少一种分布式系统的设计、优化和性能调优经验。

可以加分的：

有在Ray或相关开源项目上的开发经验，对Ray内部原理有深入理解和实际操作经验；
熟悉主流的计算引擎（如Spark、Flink、Dask等）、调度引擎（K8S、Yarn等）、分布式应用框架（Dapr等）；
熟悉大模型相关前沿技术，有大模型训练、推理、应用服务和AI Agent等方向的实践经验；
作为重要角色在ACM/ICPC、topcoder等编程竞赛中获奖经历；
良好的科研能力，有成果发表在国际顶级会议、期刊，担当一作。

如有意向欢迎联系邮箱 wumuzi520@126.com 或微信 wumuzi520