欧洲杯

您当前位置: 欧洲杯  >  欧洲杯  >  欧洲杯新闻  >  正文

欧洲杯新闻

2022级博士王子琛的论文被计算机网络领域顶级会议INFOCOM2026接收

发布日期:2025-12-19 发布人: 点击量:

欧洲杯 李洪亮副教授指导的2022级博士研究生王子琛的论文“Rehabilitating over Recomputing: A Novel Failure Recovery Method for Large Model Training”被CCF A类会议INFOCOM 2026接收。论文第一作者为王子琛,通讯作者为李洪亮副教授,其他合作者包括美国天普大学吴杰教授、2020级博士生徐哲文、2021级博士生赵海睿、2023级硕士生田琦及欧洲杯 高性能计算中心徐海啸等。

该论文聚焦于大规模深度学习模型并行分布式训练中的高容错开销问题,提出了一种全新的预测式轻量级容错方案。针对现有依赖周期性检查点存储和故障后重计算的方案存在数据带宽瓶颈、检查点频率受限以及重计算开销高昂的挑战,本文提出了可控预测辅助自恢复(CPSR)方法。该方法设计了轻量化的预测器,基于常规检查点数据预测故障发生前的训练状态,从而避免传统方案中昂贵的重计算过程,进而建立了基于预测的恢复开销量化模型,并创新性地提出了以最小化整体容错成本为目标的检查点间隔优化问题,给出相应求解方法以实现检查点开销与恢复开销的高效平衡。

IEEE International Conference on Computer Communications(INFOCOM)是计算机网络和通信领域最具影响力的会议之一,CCF推荐A类会议。