一种适用于GPT大语言模型的XCache加速推理方法

导航：龙图腾网> 最新专利技术> 一种适用于GPT大语言模型的XCache加速推理方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中电万维信息技术有限责任公司

摘要：本发明设计AI语言分析技术领域，特别是一种适用于GPT大语言模型的XCache加速推理方法。具体是一种基于频次逐级加大惩罚的GPT文本生成方案。这种方案可以有效的解决大模型出现的反复token片段无效生成问题，同时因为随着频次逐级在惩罚，因而比直接通过惩罚系数要更加温和，也即用户在数据量不是很足情况下，仍然可以使用。

主权项：1.一种适用于GPT大语言模型的XCache加速推理方法，其特征在于：包括如下步骤S1、制作token词表，并训练GPT模型：收集项目中文本生成任务相关的训练数据集；收集制作汉字、字母、字符、中文词语、英文单词大词表，同时预留几个特殊字符，即token_Dict={0：‘[CLS]’，1：”[PAD]”，2：”[SEP]“，3：”[NewLine]”，4：”中”.......}，其中[CLS]为文本起始符，[PAD]表示当文本长度达不到最大长度时，采用[PAD]填充到max_len长度，[SEP]为文本生成任务中的分割符，[NewLine]为文本换行符，max_len=512是约定的输入模型的文本最大长度，通过在海量语料中长时间训练即可得GPT模型，在训练GPT过程中，因果多头注意力层部分需要传参一个clean_cache变量，clean_cache=True即需要清除缓存，开始重新积累，用于缓存是否开始的标记，同时制作将句号，逗号，空格，换行符，省略号，感叹号，问号为易重复标点符号，也即这些标点符号不进行相关惩罚，并将这些标点符号记为punctuation_common；S2：XCache缓存：训练大语言模型过程通常有20层、30层或90层，这在推理过程中需要具有很大的计算量，针对大模型加速提出KVCache技术，发现在推理过程生成第n个token时候，历史前n-1个token信息的每个子层的key、value并不需要重新计算，同时每个子层的当前的一个token对应的query只需和缓存的key值、value值及当前的key值和value值交互即可，通过KVCache技术，KVCache中key，value同时来源于嵌入编码层或者前馈层，该输入来源记为X，也即通过相同的输入X通过两个全连接层得到，缓存内容也即直接针对每个输入因果注意力子层的输入X进行缓存，而不是缓存key值，value值，然后推理用户文本时候，只需要计算对应的key，value即可；S3：构建惩罚策略：随着生成token出现频次的逐渐增多，且不在punctuation_common，惩罚程度逐渐增大，同时约定文本窗口宽度，文本窗口宽度定为30，也即在陆续生成的30个tokens中进行频次逐级惩罚，因为惩罚系数是随着频次逐级加大，既保证了要生成文本的两个token本在一起的情况，同时因为频次逐级增大，惩罚越来越大。

全文数据：

权利要求：

百度查询：中电万维信息技术有限责任公司一种适用于GPT大语言模型的XCache加速推理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：信息处理系统以及信息处理方法

下一篇：一种电子设备、下载模式触发方法以及可读存储介质

相关技术

信息处理系统以及信息处理方法

一种电子设备、下载模式触发方法以及可读存储介质

一种非封闭交通条件下基于动应变的桥梁承载能力评定方法及系统

含氟甲醛基的哌啶型阴离子交换膜及其制备方法

一种浅层地下水污染用治理装置

一种电驱机械振动辅助负压可弯导引鞘

一种硅胶产品检测及分选装置

一种电炉铁液随流孕育装置

一种防静电智能电子手环

一种静载试验接桩循环护筒

一种切菜器

一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

XCache相关技术

模型相关技术

模型评估方法及装置_中国电信股份有限公司_202410896650.2

生物教学用大脑模型_章嘉懿_202323663194.7

数据生成模型获取方法_珠海金山数字网络科技有限公司_202410682552.9

一种风险模型中多标签模型的处理方法_河南中原消费金融股份有限公司_202411079805.X

一种珠宝自动检测模型的建模方法、模型及检测方法_河北地质大学_202410804913.2

一种基于大模型的债务人画像分析处理方法与模型_杭州度言软件有限公司_202410871597.0

大语言模型和小语言模型协同的民生诉求事件分拨方法_中电万维信息技术有限责任公司_202410774675.5

一种模型训练方法、海底地形预测方法及模型训练装置_广州海洋地质调查局_202410589025.3

一种模拟道路模型_彰武县自然资源事务服务中心(彰武县土地储备中心)_202420015907.4

一种建筑沙盘模型_孙庆伟_202420104533.3

加速相关技术

一种插置加速卡的数据加速处理设备_中国人民解放军国防科技大学_202420140311.7

一种加速贮存试验工装_湖北碧城检测有限公司_202420116449.3

加速度传感器_罗姆股份有限公司_202410242343.2

低温急加速试验方法_中车大连机车研究所有限公司_202410859525.4

一种ANN/SNN加速器及ANN/SNN神经元加速计算方法_北京大学_202410678677.4

基于Kubernetes平台的模型训练加速方法及装置_山东浪潮科学研究院有限公司_202410859438.9

应用加速方法、装置、设备、平台及存储介质_中国联合网络通信集团有限公司_202211095743.2

一种加速管的隧道运输装置_上海高鹰科技有限公司_202011043414.4

一种双轴谐振式加速度计_成都博纳神梭科技发展有限公司_202410793837.X

一种光纤光栅三维矢量加速度传感器_西安石油大学_202410677694.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种适用于GPT大语言模型的XCache加速推理方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务