【学术报告】构建CAP自洽的云化大模型推理服务

发布时间:2024-09-18 

时间:2024年9月26日(星期四)下午 14:00-15:00

地点:复旦大学江湾校区交叉二号楼B5007

联系人:徐跃东

 

摘  要

在AI大变革时代, 生成式AI服务厂商扮演了至关重要的角色, 为AI应用提供关键基础设施保障. 生成式AI云服务一般对外提供三件套服务: 全托管微调 (Fine Tuning), 智能体推理 (Agent Serving) 和 大模型推理 (Model Serving), 而其中智能体推理和大模型推理是AI应用变现的最后一公里的重中之重. 生成式AI推理服务的核心竞争力有三个: 序列长度 (Context), 推理精度 (Accuracy), 和推理性能 (Performance). 本次演讲将重点展开如何构建一个CAP自恰的推理服务, 同时满足客户对于长度, 精度和性价比的诉求. 具体来说, 我会建立一个三维的模型, 先展开提升Context和Accuracy的算法技术, 最后重点展开围绕提升推理性价比的系统技术, 例如为支持Context Caching的分布式KV Cache存储系统, 支持分离式推理的动态调度以及扩缩容, 支持DiT-based文生图文生视频加速等技术。

 

报告人简介

华为云Serverless AI平台架构师, 博士毕业于UCSD计算机系, 在华为云主导Serverless AI平台, 分布式存储DPU卸载加速, 内存基础设施平台等关键项目. 主要研究方向围绕如何提升数据中心性价比, 在大模型推理, 分离式内存, 分离式存储, 操作系统, FPGA等方向发表学术论文20+, 研究曾获得OSDI’18, SYSTOR’19, FPGA’24 Runner Up最佳论文。