【学术报告】网络驱动的大规模AI训练-阿里云可预期网络HPN7.0数据中心架构

发布时间:2024-06-23 

报告题目:网络驱动的大规模AI训练-阿里云可预期网络 HPN7.0 数据中心架构

报告时间:2024年6月25日星期二上午10:00-11:00

报告地点:复旦大学江湾校区交叉二号楼B5007会议室

联系人:徐跃东

摘要:AI 训练场景(特别是大模型训练)算力可扩展的核心是大规模、高性能的数据中心网络集群。近年来阿里云提出端网融合可预期网络的理念,并在智算领域创新设计出 HPN7.0 架构体系,基于 Ethernet 构建了超大规模、极致性能的集群网络互联。本报告分享阿里云 HPN7.0 网络系统架构的设计思考和最佳实践。

简介:席永青,阿里云资深网络架构师,在网络领域发表多篇国际顶级会议论文(如 SIGCOMM 和 NSDI 等),十余篇授权发明专利,目前是阿里云数据中心网络架构负责人,主导设计和落地阿里云 HPN 智算集群网络架构。