买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于任务提示的小样本句型分类方法、系统、设备及介质,其方法包括:对数据集进行分类,对分类后的数据集进行收集、清洗和标注,形成句型数据集;在现有模型的基础上,对模型进行修改,得到修改后的模型;利用句型数据集对修改后的模型进行训练,得到训练后的模型;对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。本发明使用新的深度学习方法,利用改进的PET模型BEK‑PET来对方法在中文句型分类中进行评价,找出最优方法,提升了分类模型的鲁棒性。
主权项:1.基于任务提示的小样本句型分类方法,其特征在于,其包括如下步骤:对数据集进行分类,对分类后的数据集进行收集、清洗和标注,形成句型数据集;在现有模型的基础上,对模型进行修改,得到修改后的模型,包括;在模板挖掘训练模型的基础上,加入微调模型M1提取出的logits按照权重融入用于微调分类器的软标签数据集,得到修改后的模型,包括:1使用有标签的数据集Df微调预训练语言模型M1,得到准确率Acc-M1;2提取训练集中打乱后的2000条去掉标签的数据,设为未标注数据集Unlabel数据集D1,使用M1对于Unlabel数据集D1进行标注,在test过程中提取出模型M1中全连接层的输出logits-M1,并且输入到文件中保存;3根据数据集设计人工模板,选择通用的模板来执行模板挖掘训练模型中的Prompt方法;4将句型数据集打乱后按3:2的比例分割为训练集和测试集,其中训练集按不同比例分割为:使用Prompt方法对预训练语言模型进行微调的数据集Dp,和直接对预训练语言模型进行微调的训练数据集Df,按照模板挖掘训练模型的prompt方法,使用数据集Dp微调出多个预训练语言模型M2、M3、M4...,并对预训练语言模型进行训练,得到训练好的预训练语言模型;5利用第4步中训练好的预训练语言模型重新标注数据,提取多个模型标注数据的多份logits值;6更改PET模型融合多个预训练语言模型标记软标签数据集的步骤,按照权重融合第5步中标注出的多份logits值和第2步中的logits-M1,第5步中的logits的权重取预训练语言模型M2、M3、M4...未微调之前使用第3步中的模板直接执行prompt方法获得的准确率值,融合logits-M1的权重设置为第1步中的准确率Acc-M1,多份logits值和logits-M1按权重融合得到软标签数据集;7使用软标签数据集直接微调下游预训练语言模型分类器C,其中预训练语言模型选择和M1相同的模型,最终得到分类器C用来测试效果;利用句型数据集对修改后的模型进行训练,得到训练后的模型;对训练后的模型进行效果验证,并将效果最好的模型作为最终模型,利用最终模型对输入的小样本句型进行分类。
全文数据:
权利要求:
百度查询: 广州大学 基于任务提示的小样本句型分类方法、系统、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。