首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于梯度感知参数冻结的大模型流水线并行训练方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军国防科技大学

摘要:本发明公开一种基于梯度感知参数冻结的大模型流水线并行训练方法及系统,该方法步骤包括:步骤S01.在模型中各矩阵乘算子处插入矩阵低秩分解节点;步骤S02.模型迭代训练过程中,分别进行节点内参数冻结以及节点间参数冻结,节点内参数冻结时,根据参数梯度控制对分解矩阵中参数进行冻结,节点间参数冻结时,逐节点判断各矩阵低秩分解节点是否收敛以进行冻结;步骤S03.构造计算图,以及构建优化目标,通过求解生成流水线并行策略;步骤S04.在模型训练过程中,在模型参数刷新点插入流水线重划分,以将活跃分区重新划分并分配到对应设备上。本发明具有实现方法简单、模型训练开销小、训练精度以及效率高等优点。

主权项:1.一种基于梯度感知参数冻结的大模型流水线并行训练方法,其特征在于,步骤包括:矩形分解:在模型的各矩阵乘算子处分别插入矩阵低秩分解节点,以用于将矩阵乘算子中权重的增量矩阵ΔWd1*d2进行矩阵低秩分解获得一组矩阵Bd1*R和AR*d2,其中R为增量矩阵的秩,A、B表示分解得到的两个分解矩阵,将矩阵Bd1*R和AR*d2进一步分解得到参数{Bi,Ai},其中Bi代表矩阵Bd1*R的第i列,Ai代表矩阵AR*d2的第i行;模型参数冻结:在对模型进行迭代训练的过程中,分别进行节点内参数冻结以及节点间参数冻结,其中进行所述节点内参数冻结时,根据每个矩阵低秩分解节点分解得到的参数{Bi,Ai}的梯度值控制对参数{Bi,Ai}进行冻结;进行所述节点间参数冻结时,逐节点判断各矩阵低秩分解节点是否收敛,如果收敛则进行冻结;流水线并行策略生成:构造模型的计算图,所述计算图中使用节点表示数据或计算节点、边表示数据的流动,并在各边中设置用于控制流水线是否切分的布尔变量Si,控制各边上的所述布尔变量Si以将计算图切分为不同的算子集合构成各个流水线阶段,基于设备集群的物理拓扑关系对各流水线阶段的设备进行划分,根据计算图在整个流水线阶段的总开销构建出优化目标,通过求解优化目标得到最优解作为生成的流水线并行策略;流水线并行重分配:在模型训练过程中,在模型参数刷新点插入流水线重划分,以将模型中的活跃分区重新划分并分配到对应设备上,直至完成模型训练。

全文数据:

权利要求:

百度查询: 中国人民解放军国防科技大学 基于梯度感知参数冻结的大模型流水线并行训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。