一种大语言模型的增量预训练方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东浪潮科学研究院有限公司

摘要：本发明涉及自然语言处理技术领域，特别涉及一种大语言模型的增量预训练方法。该大语言模型的增量预训练方法，递归式数据收集，利用MinHash算法来估计文本之间的相似度，实现数据的去重；将翻译数据集合并作为增量预训练数据集；生成并扩充词表，调整模型维度并初始化参数；采用层次固定式训练，直到所有层都完成训练；按照优先级设置经验缓冲池与经验回放；设置学习率预热和退火，以保证训练稳定性。该大语言模型的增量预训练方法，可以递归地获取更多的训练样本，避免在增量训练时的灾难性遗忘问题，对罕见数据进行多次回放训练，使得训练更加稳定，避免了数据集分布不均衡的问题。

主权项：1.一种大语言模型的增量预训练方法，其特征在于：包括以下步骤：步骤S1、递归式数据收集；自定义领域名词，设计提示prompt从大语言模型生成相关问题；将组合名词与问题送入大语言模型生成回答，并将回答进行存储；设置提示prompt从问题中重新提取关键名词；重复以上过程进行问题的获取，由上到下的数据生成树形结构；步骤S2、数据的去重；利用MinHash算法来估计文本之间的相似度，如果两个文本的MinHash值之差的绝对值小于自定义阈值，则认为这两个文本重复，保留其中一个文本并删除另一个，实现数据的去重；步骤S3、数据翻译；利用翻译模型将英文数据翻译为中文数据，并存储；然后将英文数据、翻译的中文数据以及自建的数据集合并作为增量预训练数据集；步骤S4、词表的生成与扩充；利用字节对编码BPE算法使用增量预训练数据集训练新词表，并将新词表加入词表，直至达到词表数量自定义阈值；然后将生成的词表与原始词表合并；步骤S5、模型维度调整及参数初始化；根据合并后词表的大小重新调整大语言模型词嵌入层和输出层的维度，使其与新词表的个数保持一致；新的词嵌入embedding矩阵，通过以下公式初始化：；其中，矩阵E是原始的词嵌入embedding矩阵，矩阵R是随机初始化的矩阵，用于表示新加入的词汇；步骤S6、层次化固定式训练；采用层次固定式训练，每次固定住其他层，对其中一类层进行集中训练；以此类推，直到所有层都完成训练；步骤S7、经验缓冲池与经验回放；计算各个批次batch的数据的损失函数值，损失函数值越高，对应批次batch的数据优先级越高；训练过程中自定义设置不同优先级的经验缓冲池，将各个批次batch数据放置到对应优先级的经验缓冲池中；每隔k个更新次steps，从经验缓冲池中随机抽取一个批次batch的数据进行训练作为经验回放，优先抽取优先级高的经验缓冲池，并从经验缓冲池中移除对应批次batch的数据；步骤S8、设置学习率预热和退火，以保证训练稳定性。

全文数据：

权利要求：

百度查询：山东浪潮科学研究院有限公司一种大语言模型的增量预训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：超低能耗复合保温板、保温免拆模板及制做方法

下一篇：一种集成立体库

相关技术

超低能耗复合保温板、保温免拆模板及制做方法

一种集成立体库

一种煤炭制样系统

药物组合物及其在制备治疗多发性骨髓瘤药物中的应用

一种枸杞原浆的加工工艺

一株噬尼古丁类节杆菌及其在聚乙烯塑料降解中的应用

自动适配开关实现低压直流无线智能灯配解网触发的系统、方法、装置、处理器及存储介质

手掌笔

一种双燃料船舶的智能电站管理方法

一种蒴果揉搓分选装置及其分选方法

业务异常处理方法、装置、电子设备及可读存储介质

一种耐介质聚氨酯材料及其制备方法

预相关技术

后发泡预混合装置_扬州美达灌装机械有限公司_202420264619.2

硅胶制品用预加热装置_深圳市东誉盛硅橡胶科技有限公司_202420255190.0

上行预调度方法及装置_大唐移动通信设备有限公司_202310396437.0

钢管直径预检装置及方法_平顶山学院_202411066555.6

一种预铸式混凝土组合楼板_重庆莱实建筑工程集团有限公司_202420122868.8

斜拉桥预埋套管定位结构及斜拉桥_海逸恒安项目管理有限公司_202420415788.1

一种市政杆件预埋底座_浙江德宝通讯科技股份有限公司_202420337125.2

一种薄膜预出膜机构_北京航天东方科技发展有限公司_201911031473.7

一种包装盒加工预折设备_瑞安市宇豪包装有限公司_202323583729.X

应用于提升固件性能的预操作_美光科技公司_202410444638.8

训练相关技术

自行车训练系统及其训练方法_泰克斯私人有限公司_202180056608.4

简易呼吸训练装置_中国航天科工集团七三一医院_202323480117.8

前臂旋转训练装置_中国人民解放军陆军特色医学中心_202410686829.5

脚踝康复训练装置_北京软体机器人科技股份有限公司_202411280882.1

履带轮雪橇训练机_高建平_202420334077.1

一种遥感图像配准模型训练方法及训练系统_北京市遥感信息研究所_202410309849.0

一种肺活量训练器_南昌大学第一附属医院_202411142084.2

量化感知训练终端芯片模型系统_深圳明琪紫芯科技有限公司_202410780587.6

一种益智拳击训练板_王茂南_202420351732.4

模型训练加速方法和装置_中国移动通信集团浙江有限公司_202311782784.3

模型相关技术

人机验证模型系统_重庆长安新能源汽车科技有限公司_202210333291.0

一种心脏模型_广州卫生职业技术学院_202210688644.9

犬颈静脉采血模型_上海农林职业技术学院_202323532531.9

组合混合专家和模型集成的机器学习模型架构_高通股份有限公司_202380025033.9

构建HRD预测模型的方法、HRD预测模型及CNA特征的应用_上海科技大学_202310381889.1

生成式大语言模型训练方法以及基于模型的搜索方法_北京百度网讯科技有限公司_202310233941.9

基于星座数据模型的模型训练方法以及数据查询方法_广州思迈特软件有限公司_202411273644.8

多速率机电暂态模型与交流系统模型双向接口方法和系统_中国电力科学研究院有限公司_202410879146.1

模型计算方法以及相关装置_中昊芯英(杭州)科技有限公司_202411264771.1

一种体测感知模型_罗磊_202410865436.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种大语言模型的增量预训练方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务