Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国电子科技集团有限公司电子科学研究院董琦获国家专利权

恭喜中国电子科技集团有限公司电子科学研究院董琦获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国电子科技集团有限公司电子科学研究院申请的专利一种大语言模型训练加速方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118779095B

龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410747978.8,技术领域涉及:G06F9/50;该发明授权一种大语言模型训练加速方法是由董琦;朱仕通;刘欣雨设计研发完成,并于2024-06-11向国家知识产权局提交的专利申请。

一种大语言模型训练加速方法在说明书摘要公布了:本发明提供一种大语言模型训练加速方法,包括以下步骤:对大模型的不同网络层进行数学建模,分析对应层的参数量,计算不同层的计算量:模型参数量是指一个神经网络或机器学习模型中可以进行学习和调整的参数的数量,这些参数包括权重和偏置,它们在训练过程中会不断地更新以优化模型的性能,模型计算量以FLOPs表示浮点数运算次数,衡量了计算量的大小。本发明提供的本发明提供一种大语言模型训练加速方法,能够对大模型训练中的资源占用进行准确评估,进一步分析以找到大模型训练中的瓶颈,并帮助研究者门提出大模型加速训练方法,对于大模型领域的分析和优化训练具有重要意义。

本发明授权一种大语言模型训练加速方法在权利要求书中公布了:1.一种大语言模型训练加速方法,其特征在于,包括以下步骤:S1、对大模型的不同网络层进行数学建模,分析对应层的参数量,计算不同层的计算量:模型参数量是指一个神经网络或机器学习模型中进行学习和调整的参数的数量,这些参数包括权重和偏置,它们在训练过程中会不断地更新以优化模型的性能,模型计算量以FLOPs表示浮点数运算次数,衡量了计算量的大小;S2、在对大模型的网络层进行数学建模后,需要对大模型整体的参数量和计算量进行统计,对于大模型整体的参数,这里忽略了AttentionMask层、Embedding层和Decoder层的参数量,Transformer模型会在大模型中重叠排列,作为大模型的主体,这里列出大模型主体的参数量以代表大模型总体的参数量,方便以后分析,具体公式如下:剔除Embedding层和Decoder层的参数量:φ=nlayer*3*dmodel*dattn+dmodel*dattn+2*dmodel*dff=2*nlayer*dmodel*2*dattn+dff每个Token计算量: S3、考虑现实中计算硬件的参数,结合大模型的数学建模分析来划分大模型的不同阶段,使其稳定运行在GPUs上,假设有n个A100GPUs来运行大模型的一个阶段,大模型划分的每个阶段中包含t个Transformer层,则必须保证大模型这一阶段的内存占用,计算量不超过n个GPUs的理论上限,以φ′表示这个子模型的参数量,确定这个子模型中的Transformer层数nl′ayer,对于内存占用,n个A100GPUs包含n*40G内存,子模型的内存包含参数2φ′,梯度2φ′,优化器状态12φ′,总共为16φ′:16φ′=16*2*dmodel*2*dattn+dff*nl′ayer≤n×40×80%对于计算峰值,每个A100GPUs的计算峰值为19.5TFLOPS,子模型的计算量C′=2*φ′+2*nl′ayer*nctx*dmodel<<19.5×80%TFLOPS;S4、在大模型训练中,对其中的Transformer模型的计算采取张量行优化,张量并行可分解为行并行和列并行,接下来对Attention结构和MLP结构分别应用张量并行;S5、利用All-reduce的同步通信时间,采用数据CPU卸载来保存前一阶段的参数和计算中间结果,减少所需的GPU内存;同时管理GPU显存,将下一阶段的模型参数传输到GPU显存中去,提高GPU计算利用率,在前向计算过程中,在GPU进行同步通信时开启CPU卸载,将前一轮的计算结果,保存的中间激活值保存在CPU上;在后向参数更新时,反向通信时利用同步通信时间,将前向计算中保存在CPU上的中间激活值传输到GPU上进行计算,同时将更新后的参数保存到CPU上。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团有限公司电子科学研究院,其通讯地址为:100041 北京市石景山区八大处高科技园区双园路11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。