首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种大语言模型的增量预训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明涉及自然语言处理技术领域,特别涉及一种大语言模型的增量预训练方法。该大语言模型的增量预训练方法,递归式数据收集,利用MinHash算法来估计文本之间的相似度,实现数据的去重;将翻译数据集合并作为增量预训练数据集;生成并扩充词表,调整模型维度并初始化参数;采用层次固定式训练,直到所有层都完成训练;按照优先级设置经验缓冲池与经验回放;设置学习率预热和退火,以保证训练稳定性。该大语言模型的增量预训练方法,可以递归地获取更多的训练样本,避免在增量训练时的灾难性遗忘问题,对罕见数据进行多次回放训练,使得训练更加稳定,避免了数据集分布不均衡的问题。

主权项:1.一种大语言模型的增量预训练方法,其特征在于:包括以下步骤:步骤S1、递归式数据收集;自定义领域名词,设计提示prompt从大语言模型生成相关问题;将组合名词与问题送入大语言模型生成回答,并将回答进行存储;设置提示prompt从问题中重新提取关键名词;重复以上过程进行问题的获取,由上到下的数据生成树形结构;步骤S2、数据的去重;利用MinHash算法来估计文本之间的相似度,如果两个文本的MinHash值之差的绝对值小于自定义阈值,则认为这两个文本重复,保留其中一个文本并删除另一个,实现数据的去重;步骤S3、数据翻译;利用翻译模型将英文数据翻译为中文数据,并存储;然后将英文数据、翻译的中文数据以及自建的数据集合并作为增量预训练数据集;步骤S4、词表的生成与扩充;利用字节对编码BPE算法使用增量预训练数据集训练新词表,并将新词表加入词表,直至达到词表数量自定义阈值;然后将生成的词表与原始词表合并;步骤S5、模型维度调整及参数初始化;根据合并后词表的大小重新调整大语言模型词嵌入层和输出层的维度,使其与新词表的个数保持一致;新的词嵌入embedding矩阵,通过以下公式初始化:;其中,矩阵E是原始的词嵌入embedding矩阵,矩阵R是随机初始化的矩阵,用于表示新加入的词汇;步骤S6、层次化固定式训练;采用层次固定式训练,每次固定住其他层,对其中一类层进行集中训练;以此类推,直到所有层都完成训练;步骤S7、经验缓冲池与经验回放;计算各个批次batch的数据的损失函数值,损失函数值越高,对应批次batch的数据优先级越高;训练过程中自定义设置不同优先级的经验缓冲池,将各个批次batch数据放置到对应优先级的经验缓冲池中;每隔k个更新次steps,从经验缓冲池中随机抽取一个批次batch的数据进行训练作为经验回放,优先抽取优先级高的经验缓冲池,并从经验缓冲池中移除对应批次batch的数据;步骤S8、设置学习率预热和退火,以保证训练稳定性。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种大语言模型的增量预训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。