一种基于大模型高速缓存的投机推理加速方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京潞晨科技有限公司

摘要：本发明公开了一种基于大模型高速缓存的投机推理加速方法，具体包括以下步骤：S1、模型架构设计：首先设计小语言模型的基本架构；S2、数据准备：收集和预处理用于训练模型的数据；S3、训练过程：利用深度学习框架进行模型的训练；S4、集成大语言模型：将训练好的小语言模型与预先训练好的大语言模型集成，使其能够利用大语言模型的KV缓存进行推测性解码；本发明涉及投机推理技术领域。该基于大模型高速缓存的投机推理加速方法，不仅提高了小型模型的实用性，也为各种语言处理任务提供了更高效、更精准的解决方案，提供了对大模型推理1.5‑2.0倍内的加速,极大缩短运行时间，小模型显存占用不增加，不会带来额外的显存占用。

主权项：1.一种基于大模型高速缓存的投机推理加速方法，其特征在于：具体包括以下步骤：S1、模型架构设计：首先设计小语言模型的基本架构；S2、数据准备：收集和预处理用于训练模型的数据；S3、训练过程：利用深度学习框架进行模型的训练；S4、集成大语言模型：将训练好的小语言模型与预先训练好的大语言模型集成，使其能够利用大语言模型的KV缓存进行推测性解码；S5、输入处理：接收输入数据并进行预处理；S6、大语言模型编码：利用大语言模型对输入数据进行编码，生成高级表示和KV缓存；S7、交叉关注机制：在小语言模型中引入交叉关注层，以便它可以使用大语言模型的KV缓存；S8、输出生成：小语言模型根据交叉关注处理的结果生成文本输出；S9、验证和调整：大语言模型对小语言模型的输出进行验证和必要的调整。

全文数据：

权利要求：

百度查询：北京潞晨科技有限公司一种基于大模型高速缓存的投机推理加速方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于肺癌新辅助免疫治疗及化疗的预后标志物及其应用

下一篇：计及电池寿命的电热氢混合储能系统容量优化配置方法

相关技术

一种用于肺癌新辅助免疫治疗及化疗的预后标志物及其应用

计及电池寿命的电热氢混合储能系统容量优化配置方法

一种电视墙管理方法、系统、电子装置和存储介质

一种基于FIFO处理CAN通信消息的优化系统及方法

流媒体推流方法、流媒体推流系统和存储介质

时间校准方法及装置、车辆、服务器和存储介质

用于使用子图片对特征进行视频编码的系统和方法

一种缺陷检测方法和相关设备

装置、方法和计算机程序

一种高效快照压缩视频字幕生成方法

有向图处理方法、装置、电子设备、存储介质及程序产品

可冲散无纺布制备新工艺及应用

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于大模型高速缓存的投机推理加速方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务