Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学丁志军获国家专利权

同济大学丁志军获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利一种基于动态检查点策略的大模型分布式训练故障处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120317318B

龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510820987.X,技术领域涉及:G06N3/092;该发明授权一种基于动态检查点策略的大模型分布式训练故障处理方法是由丁志军;荆宇泉设计研发完成,并于2025-06-19向国家知识产权局提交的专利申请。

一种基于动态检查点策略的大模型分布式训练故障处理方法在说明书摘要公布了:本发明属于大模型分布式训练领域,特别涉及一种基于动态检查点策略的大模型分布式训练故障处理方法。包括:(1)集群拓扑和环境动态感知的检查点分布式存取策略(2)变化趋势感知的大模型迭代时间预测方法(3)模型训练迭代时间和趋势感知的检查点频率决策方法。本发明解决了传统检查点恢复过程中的速度和损失问题,还通过动态调整检查点更新频率,优化了资源利用率,减少了训练过程中的冗余开销。这些改进使得大规模深度学习模型在面对复杂训练环境时,能够更加灵活和高效地应对故障,确保训练的连续性和稳定性,从而为大模型训练技术的发展提供了新的思路和方向。

本发明授权一种基于动态检查点策略的大模型分布式训练故障处理方法在权利要求书中公布了:1.一种基于动态检查点策略的大模型分布式训练故障处理方法,其特征在于,包括: (1)集群拓扑和环境动态感知的检查点分布式存取策略:设计四层存取拓扑检查点分布式存取方法,动态感知GPU集群的拓扑结构和资源状态,分析训练过程中检查点的多副本存取位置,以决定最佳的存取策略; (2)变化趋势感知的大模型迭代时间预测方法:实施大模型训练迭代时间序列预测,通过历史数据分析未来的迭代时间趋势;结合变化趋势分析,提高检查点更新频率的时效性,以应对训练环境的动态变化; (3)模型训练迭代时间和趋势感知的检查点频率决策方法:基于损失分析,动态调整检查点更新频率,确保在故障损失小的前提下,减少检查点操作的开销;通过对可容忍损失的校准和频率的调整,优化检查点更新策略,以提高训练过程的效率和可靠性; 所述四层存取拓扑具体为: 存储媒介按与训练节点之间的传输速度依次为本地内存、物理机内存、集群其他机器内存、外部存储四个层次; 第一层次为本地内存; 第二层次为与训练虚拟机位于同一物理机的其他虚拟机内存;当单个虚拟机发生故障或本地内存的检查点损坏时,通过共享内存、物理机内部网络方式将检查点传输到重启的故障虚拟机;在副本数方面,选择内存利用率最低的1台同物理机虚拟机存储一份检查点副本; 第三层次为集群其他虚拟机内存;该层次在前两个层次副本丢失时,利用数据中心内部网络将检查点副本传输到训练节点;通过建立强化学习模型对环境资源变化进行感知,动态调整集群中该层次的检查点副本数量和存取位置,以在避免过度影响训练进程的前提下保证该层次的有效性; 第四层次为外部存储; 所述变化趋势感知的大模型迭代时间预测方法通过对未来迭代时间序列的预测和变化趋势的分析,提高检查点频率更新方法的时效性,包括: (1)历史数据分析:收集并分析历史训练迭代时间序列数据,识别出时间序列的变化模式; (2)趋势预测:使用GNN-LSTM网络对未来的迭代时间进行预测,输出未来的变化趋势; (3)分类与响应:将预测的变化趋势分类,及时识别训练环境的不稳定性,并为检查点策略提供支持; 所述模型训练迭代时间和趋势感知的检查点频率决策方法基于损失分析的检查点更新频率动态分层决策方法,在故障损失小的前提下,减少检查点操作的开销,包括: (1)损失容忍度设定:确定可容忍的训练损失Lbase,并结合变化系数,计算出未来的损失容忍度L1; (2)频率调整策略:在确保损失不超过L1的基础上,逐步提高检查点获取间隔Δ,找到满足条件的最大间隔; (3)开销优化:结合存取策略的开销,动态调整检查点更新频率,以减少不必要的检查点操作,确保训练过程的高效性。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200092 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。