首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种适用于GPT大语言模型的XCache加速推理方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中电万维信息技术有限责任公司

摘要:本发明设计AI语言分析技术领域,特别是一种适用于GPT大语言模型的XCache加速推理方法。具体是一种基于频次逐级加大惩罚的GPT文本生成方案。这种方案可以有效的解决大模型出现的反复token片段无效生成问题,同时因为随着频次逐级在惩罚,因而比直接通过惩罚系数要更加温和,也即用户在数据量不是很足情况下,仍然可以使用。

主权项:1.一种适用于GPT大语言模型的XCache加速推理方法,其特征在于:包括如下步骤S1、制作token词表,并训练GPT模型:收集项目中文本生成任务相关的训练数据集;收集制作汉字、字母、字符、中文词语、英文单词大词表,同时预留几个特殊字符,即token_Dict={0:‘[CLS]’,1:”[PAD]”,2:”[SEP]“,3:”[NewLine]”,4:”中”.......},其中[CLS]为文本起始符,[PAD]表示当文本长度达不到最大长度时,采用[PAD]填充到max_len长度,[SEP]为文本生成任务中的分割符,[NewLine]为文本换行符,max_len=512是约定的输入模型的文本最大长度,通过在海量语料中长时间训练即可得GPT模型,在训练GPT过程中,因果多头注意力层部分需要传参一个clean_cache变量,clean_cache=True即需要清除缓存,开始重新积累,用于缓存是否开始的标记,同时制作将句号,逗号,空格,换行符,省略号,感叹号,问号为易重复标点符号,也即这些标点符号不进行相关惩罚,并将这些标点符号记为punctuation_common;S2:XCache缓存:训练大语言模型过程通常有20层、30层或90层,这在推理过程中需要具有很大的计算量,针对大模型加速提出KVCache技术,发现在推理过程生成第n个token时候,历史前n-1个token信息的每个子层的key、value并不需要重新计算,同时每个子层的当前的一个token对应的query只需和缓存的key值、value值及当前的key值和value值交互即可,通过KVCache技术,KVCache中key,value同时来源于嵌入编码层或者前馈层,该输入来源记为X,也即通过相同的输入X通过两个全连接层得到,缓存内容也即直接针对每个输入因果注意力子层的输入X进行缓存,而不是缓存key值,value值,然后推理用户文本时候,只需要计算对应的key,value即可;S3:构建惩罚策略:随着生成token出现频次的逐渐增多,且不在punctuation_common,惩罚程度逐渐增大,同时约定文本窗口宽度,文本窗口宽度定为30,也即在陆续生成的30个tokens中进行频次逐级惩罚,因为惩罚系数是随着频次逐级加大,既保证了要生成文本的两个token本在一起的情况,同时因为频次逐级增大,惩罚越来越大。

全文数据:

权利要求:

百度查询: 中电万维信息技术有限责任公司 一种适用于GPT大语言模型的XCache加速推理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

XCache相关技术