一种文本指令微调场景的持续学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学深圳国际研究生院;平安科技(深圳)有限公司

摘要：一种文本指令微调场景的持续学习方法，包括：在模型训练前，利用大语言模型将文本任务指令转换为嵌入表示，并通过Wasserstein距离计算任务相似性，在增量学习场景中动态分配回放的数据量；为旧任务指令生成意图标签并进行处理以提供更加细粒度的信息，进而计算InsInfo值量化指令多样性和复杂性。训练过程中，先依据任务相似性动态调整回放数据量，对差异较大的旧任务分配更多的回放数据，帮助模型有选择性的回忆旧任务。在确定各个旧任务的回放数据量后，优先回放具有高InsInfo值的指令数据，并持续评估模型性能。本方法有效缓解灾难性遗忘，提升模型在增量式学习中的文本任务适应能力，无需大幅改动模型架构，具有高计算效率，显著提升了大语言模型的泛化能力。

主权项：1.一种文本指令微调场景的持续学习方法，其特征在于，包括以下步骤：在模型训练之前或之初：A1、对于文本任务的指令，通过大语言模型转换为嵌入表示，以便于后续的相似性计算；A2、针对文本任务，利用最优传输理论中的Wasserstein距离，计算新旧任务指令嵌入的分布距离，以此作为任务相似性的度量；A3、对于文本任务中的旧任务，使用大语言模型为旧任务的所有指令生成意图标签；A4、对生成的意图标签进行去噪和归一化处理，以提升标签的准确性和一致性；A5、基于每个文本任务指令对应的标签数量和出现频次，计算InsInfo值，作为衡量指令多样性和复杂性的量化指标；在模型训练过程中：B1、根据Wasserstein距离的计算结果，动态决定每个旧任务的回放数据量，对与新任务差异越大的旧任务分配越多的回放数据；B2、使用InsInfo值来指导选择高质量的指令数据进行回放，优先选择那些具有较高多样性和复杂性的文本指令数据；B3、对于文本任务，持续评估模型在新任务和旧任务上的性能，以确保模型在增量式学习中能够有效地保留旧任务知识并学习新任务。

全文数据：

权利要求：

百度查询：清华大学深圳国际研究生院平安科技(深圳)有限公司一种文本指令微调场景的持续学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高直流叠加特性低损耗复合磁粉心的制备方法

下一篇：一种基于企业资源的职业教育的管理方法以及设备

相关技术

一种高直流叠加特性低损耗复合磁粉心的制备方法

一种基于企业资源的职业教育的管理方法以及设备

一种电池端板

一种新能源汽车电池包自加热检测柜

钢制防火门的焊接装置

用于车辆空调系统的控制方法、装置、程序产品及介质

一种高速机械磨削主轴加工装置

一种用于塑胶原料生产加工的除味装置

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

一种重型机械龙门自动焊接装置

一种整车软件管理系统及方法

一种齿轨车的制动方法、装置、设备及存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种文本指令微调场景的持续学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务