Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 九维数智(北京)科技有限公司汤文龙获国家专利权

九维数智(北京)科技有限公司汤文龙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉九维数智(北京)科技有限公司申请的专利基于网络计算和异步检查点的大模型检查点容灾系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120276894B

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510321034.9,技术领域涉及:G06F11/07;该发明授权基于网络计算和异步检查点的大模型检查点容灾系统是由汤文龙;裘军;田明营设计研发完成,并于2025-03-18向国家知识产权局提交的专利申请。

基于网络计算和异步检查点的大模型检查点容灾系统在说明书摘要公布了:本发明公开了一种基于网络计算和异步检查点的大模型检查点容灾系统,该容灾系统采取分层存储设计,包括多个组,每个组包括至少二个计算节点,组内计算节点互相保存对方的检查点;所述计算节点至少包括CPU、内存、NIC和多个GPU;各GPU的最近一次检查点保存在当前计算节点的CPU内存中,以及通过网络将最近一次检查点保存在同组相邻计算节点的CPU内存中;利用数据并行的特点和网络计算将检查点保存到存储节点。本发明提出的分布式系统下的大模型容灾系统,可以为大模型训练提供快速的故障恢复,实现了高频率的检查点,减少训练和故障恢复时的时间开销,并且不会产生额外的训练吞吐量开销。同时,本系统适用于现有的分布式并行训练方法和训练框架。

本发明授权基于网络计算和异步检查点的大模型检查点容灾系统在权利要求书中公布了:1.一种基于网络计算和异步检查点的大模型检查点容灾系统,其特征在于,所述容灾系统采取分层存储设计,所述容灾系统包括多个组,每个组包括至少二个计算节点,组内计算节点互相保存对方的检查点; 所述计算节点至少包括CPU、内存、网络传输模块和多个GPU; 各GPU的最近一次检查点保存在当前计算节点的CPU内存中,以及通过网络传输模块将最近一次检查点保存在同组内相邻计算节点的CPU内存中; 所述检查点写入相邻CPU内存时通过利用训练流程中的空闲时间,进行检查点通信,可以降低检查点通信对训练时通信的影响; 空闲时间的确认方法包括以下步骤: 步骤1,在每次迭代过程中,在所有集体通信操作的入口和出口处设置钩子进行时间戳记录;对每个通信操作记录开始时间和结束时间,并额外采集通信数据包大小、延时以及当前网络带宽利用率; 通信操作包括梯度同步、参数获取、RDMA调用; 步骤2,于记录的所有通信区间,构造一条连续的时间线,并将通信过程作为占用“忙碌区间”标记; 对整条时间线进行离散化处理,将时间划分为若干微小时间片,在每个时间片内标记是否存在通信操作;统计每个迭代中“忙碌区间”的分布情况和累计时长,计算空闲时间候选窗口; 步骤3,遍历离散化时间线,对相邻时间窗口按“忙碌区间”或“空闲”状态进行合并,生成连续的空闲时间段列表; 并设置一个初始最小空闲阈值,只有大于该时长的空闲段才认为是真正可用于检查点传输的空闲时间段; 步骤4,时利用滑动窗口,对最近N个迭代中检测到的空闲时间段统计其时长的分布,计算其均值,采用简单的指数平滑算法预测下一次迭代中空闲时间段的可能长度: Sy=αXt+1-αSt-1 其中,Xt为当前迭代内检测到的空闲时间段长度,St为当前时刻的平滑值,St-1为上次平滑值,α为平滑系数,其决定了新观测值与历史平滑序列的权重分配;第一轮没有历史数据,首个观测值来初始化,设定S0=X0; 步骤5,当检测到空闲区间超过当前动态阈值时,即触发检查点传输操作;如果空闲区间长度不足以完成整个传输任务,则将数据传输拆分为多次,利用“部分传输—反馈—判断空闲延续”的方式动态补传;同时在线监测实际传输的时延和已用网络资源,如发现传输过程中网络利用率突增,动态降低传输速率,或暂时挂起传输,等待下一个空闲窗口; 步骤6,根据分布动态调整最小空闲阈值,当过去若干迭代中空闲时间普遍较短时,可降低阈值;当空闲时间较长时,则提升阈值以便预留足够时间进行较大数据块的传输;当检测到当前网络利用率下降时,可适当降低空闲判断门槛,从而尽可能利用短暂空闲时间。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人九维数智(北京)科技有限公司,其通讯地址为:100071 北京市丰台区丰科路6号院3号楼5层504-205;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。