红有软件股份有限公司何芳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉红有软件股份有限公司申请的专利大模型推理效能动态优化与硬件感知压缩方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120494006B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510983404.5,技术领域涉及:G06N3/0495;该发明授权大模型推理效能动态优化与硬件感知压缩方法是由何芳;随倩轶;张伟;王照亭;杨帆;吴金凤;王迎雪;吴琨设计研发完成,并于2025-07-17向国家知识产权局提交的专利申请。
本大模型推理效能动态优化与硬件感知压缩方法在说明书摘要公布了:本发明的大模型推理效能动态优化与硬件感知压缩方法包括五个步骤:S1:生成表征计算复杂度的输入复杂度信号;S2:同步监控运行平台的硬件资源指标,生成反映实时负载的硬件状态信号;S3:将输入复杂度信号与硬件状态信号输入动态策略选择器,通过预训练的决策模型生成压缩控制信号;S4:根据压缩控制信号,对当前推理任务的大模型权重和激活值执行动态重配置操作;S5:使用重配置后的大模型执行推理计算,并在计算过程中将硬件资源指标实时反馈至S2,形成闭环优化链路。本发明的大模型推理效能动态优化与硬件感知压缩方法可以解决静态压缩方法在动态输入和异构硬件环境下导致的资源利用率低下、延迟波动及能效失衡的问题。
本发明授权大模型推理效能动态优化与硬件感知压缩方法在权利要求书中公布了:1.大模型推理效能动态优化与硬件感知压缩方法,其特征在于,包括: S1:实时提取输入数据的特征向量,生成表征计算复杂度的输入复杂度信号,所述S1中提取输入数据的特征向量具体包括,通过轻量级卷积网络实时分析输入文本的序列长度与注意力分布离散度,生成包含层次化语义密度信息的特征向量,其中所述输入复杂度信号通过门控循环单元融合序列长度特征与注意力熵值特征形成,该信号动态反映不同输入样本在模型各计算层引发的理论计算量差异; S2:同步监控运行平台的硬件资源指标,生成反映实时负载的硬件状态信号,所述硬件资源指标包括内存占用率、计算单元利用率及功耗数据; S3:将所述输入复杂度信号与所述硬件状态信号输入动态策略选择器,通过预训练的决策模型生成压缩控制信号,该信号包含量化位宽、稀疏化比例及算子调度策略的组合指令; S4:根据所述压缩控制信号,对当前推理任务的大模型权重和激活值执行动态重配置操作,包括基于量化位宽指令切换浮点或定点计算模式、基于稀疏化比例指令激活对应层的结构化掩码以及基于算子调度指令适配硬件加速内核,所述S4中基于量化位宽指令切换计算模式时,根据控制信号指定的位宽参数动态加载预编译的整数计算内核或混合精度计算内核,并在计算图中插入实时校准节点补偿量化误差,其中定点计算模式采用对称量化策略将浮点权重映射至带缩放因子的整数表示;所述结构化掩码的激活过程包括,依据稀疏化比例指令生成符合硬件加速单元要求的块稀疏模式,在权重矩阵中动态屏蔽指定比例的低权重值区域,同时向计算引擎提交稀疏矩阵压缩格式标识符以触发专用计算流水线;所述算子调度指令适配硬件加速内核的具体实现为,根据控制信号选择计算图分割策略与内存分配方案,针对图形处理器启用异步流水线并行机制,针对神经网络处理器启动数据流分片计算模式,并为中央处理器绑定大页内存预取策略; S5:使用重配置后的大模型执行推理计算,并在计算过程中将硬件资源指标实时反馈至S2,形成闭环优化链路。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人红有软件股份有限公司,其通讯地址为:834099 新疆维吾尔自治区克拉玛依市克拉玛依区吉云路197-2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。