恭喜山东亚微软件股份有限公司曹晓华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜山东亚微软件股份有限公司申请的专利基于动态资源分配与知识蒸馏的高效大模型训练优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119849594B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510336242.6,技术领域涉及:G06N3/096;该发明授权基于动态资源分配与知识蒸馏的高效大模型训练优化方法是由曹晓华;杜凯宁;王津;顾晓丽;张春营;蓝孝伟设计研发完成,并于2025-03-21向国家知识产权局提交的专利申请。
本基于动态资源分配与知识蒸馏的高效大模型训练优化方法在说明书摘要公布了:本发明涉及机器学习技术领域,具体地说,涉及基于动态资源分配与知识蒸馏的高效大模型训练优化方法。其包括如下步骤:识别学生模型的知识瓶颈层,通过计算教师和学生模型在知识瓶颈层上的注意力分布的差异得到KL散度,并将KL散度作为蒸馏损失项,然后获取训练过程中的资源利用率,将资源利用率与蒸馏损失项权重结合,构建帕累托多目标优化函数,采用近端策略优化算法训练资源分配智能体;当教师模型的某个模块对学生模型的贡献度低于阈值时,则冻结该模块并停止其前向计算。该方法确保模型在训练收敛速度、计算资源利用率和蒸馏效果之间取得最优平衡,不仅提高了训练效率,还增强了大模型在有限资源下的适应能力。
本发明授权基于动态资源分配与知识蒸馏的高效大模型训练优化方法在权利要求书中公布了:1.一种基于动态资源分配与知识蒸馏的高效大模型训练优化方法,其特征在于,包括如下步骤:S1、构建实时资源博弈控制器,通过纳什均衡算法动态分配计算资源至教师模型与学生模型,基于两者的实时训练效益比确定资源分配比例,其中所述教师模型和学生模型均包含深层卷积层、扩张卷积层及全连接层的复合网络结构;S2、基于梯度方差连续低于历史均值阈值或层输出特征L2范数连续低于预设阈值的双重判据进行标记,将教师模型对应层的注意力分布迁移至知识瓶颈层,通过KL散度计算跨层知识迁移损失;所述S1中,教师模型和学生模型的效益比分别为: 式中,为教师模型的训练效益比;为学生模型的训练效益比;为教师模型的损失变化量;为教师模型的博弈系数;为学生模型的博弈系数;为学生模型的损失变化量;为教师模型的梯度幅值的L2范数;为学生模型的梯度幅值的L2范数;当教师模型效益比高于学生模型时,向其分配超过50%的计算资源,反之则向学生模型倾斜分配,两者相等时按均衡比例分配;所述S2中跨层知识迁移损失的生成方法包括:提取教师模型与学生模型在知识瓶颈层的注意力矩阵和;计算加权KL散度损失值,权重系数与特征通道的重要性评分正相关;将KL散度损失动态叠加至学生模型总损失函数,并反馈至步骤S1的实时资源博弈控制器;S3、构建动态帕累托多目标优化函数,融合资源利用率指标、蒸馏损失权重系数及剩余训练时间约束,驱动近端策略优化算法生成资源分配策略;S4、动态评估教师模型各模块对学生模型的贡献度,冻结贡献度低于阈值的模块,并通过轻量级生成对抗网络模拟冻结模块的输出特征分布。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东亚微软件股份有限公司,其通讯地址为:266000 山东省青岛市市南区香港中路61号阳光大厦A座11层E单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。