报告题目:SiloD: A Co-design of Caching and Scheduling for Deep Learning Clusters
报告人:微软亚洲研究院 韩震华博士
时间:2023年3月6日(周一),下午4:00-5:00
地点:江湾校区交叉科学2号楼B5007会议室
联系人:徐跃东 老师
摘要:在云平台上,深度学习训练通常会利用GPU/TPU的计算集群进行计算,同时从存储集群中读取数据。为了避免网络瓶颈,训练集群通常会利用本地存储作为缓存,以减少远程数据访问。然而,现有的深度学习集群调度方案只关注计算资源,忽视了存储资源的影响,导致调度效果无法达到预期。为了解决这个问题,我们提出了SiloD,它通过协同设计深度学习训练的调度和数据缓存系统,将存储资源(缓存和网络带宽)视为与计算资源同等重要的维度进行统一调度。SiloD根据深度学习训练的数据访问规律,捕获不同任务的缓存和远程IO要求,从而推导出在不同资源分配下模型的训练速度。这种预测方法可用于优化各种调度目标,如吞吐量和公平性等。在大规模集群中的实验表明,当存储带宽受限时,SiloD可以将平均作业完成时间、集群利用率和公平性分别提高7.4倍、2.57倍和1.89倍。
简历:韩震华,香港大学博士学位,现为微软亚洲研究院主管研究员。他的研究兴趣主要是机器学习系统的设计和优化。他的论文发表在一系列系统领域顶级会议或期刊,包括OSDI、EuroSys、ASPLOS、ATC、INFOCOM、IEEE/ACM Transaction on Networking等,并在若干会议(INFOCOM等)担任程序委员。