首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Inception模块的提示微调方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:成都信息工程大学

摘要:本发明涉及一种基于Inception模块的提示微调方法,通过将一个用于下游任务的提示网络插入预训练模型内部,该网络包含有随机选取预训练模型词表进行初始化的连续提示,以及与连续提示相连接的多个尺寸递增的带有上下投影的瓶颈网络,其形状类似于Inception模块,起到对单一连续提示向量的深度和宽度进行高效扩充的作用。在针对下游任务微调预训练模型时,冻结主干模型使得仅提示网络可以进行参数更新,因提示网络放置于预训练模型的中后部,在反向传播过程中距离较短任务相关信息损失少,同时优化训练时间和内存占用。

主权项:1.一种基于Inception模块的提示微调方法,其特征在于,所述提示微调方法通过将一个用于下游任务的提示生成器模块插入预训练模型内部,在针对下游任务微调预训练模型时,冻结主干模型使得仅提示生成器模块可以进行参数更新,所述提示生成器模块具有三个瓶颈大小不同的瓶颈网络以Inception-Resnet的方式连接得到,实现对信息在多尺度上进行处理,因提示生成器模块放置于预训练模型的中后部,在反向传播过程中距离较短任务相关信息损失少,同时训练时间和内存占用减少,具体包括:步骤1:采集数据集,所述数据集是公开数据集,或通过采集某特定任务短文本数据自行构造的数据集;步骤2:若选用公开数据集则跳过步骤2,若为自行采集的数据则执行步骤2,由标注人员对其进行标注得到标注数据集;步骤3:为步骤1或2得到的数据集中的所有原始句子添加带掩码提示模板,再把所述带掩码提示模板和原始句子结合,作为基础预训练模型的输入输入数据RoBERTainput;步骤4:对于不同的特定任务,通过构建相应的空间答案映射V,同时用空间答案映射V中的真实标签ytrue替代下游任务的训练样本和测试样本的答案,实现将分类任务转为对词汇概率的预测任务;步骤5:预设基础预训练模型的参数,基础预训练模型以RoBERTa为例,不局限于RoBERTa,初始化RoBERTa模型,RoBERTa模型参数至少包括学习率、随机失活和训练轮数以及提示插入层;步骤6:首先将预训练模型的主干冻结,即取消主干参数的梯度,自定义一个提示生成器模块并使该模块可训练,即打开提示生成器模块的梯度,允许其在反向传播阶段进行梯度更新,同时对提示生成器模块的输入和输出维度进行限制,具体设置为预训练模型的隐藏层维度;步骤7:将步骤3所得的输入数据RoBERTainput、位置信息Pos送入词嵌入层获得词嵌入向量hin;步骤8:将由步骤7获取的词嵌入向量hin送入步骤5初始化好的预训练基础模型中,以RoBERTa模型为例,RoBERTa模型为包括24层的编码器模型,将词嵌入向量hin依次输入每一层并判断该层是否是提示添加层,如是提示添加层,则提示生成器模块生成提示,则在前一层输出的隐藏向量h的基础上,合并生成的提示得到新的隐藏向量hnew,将新的隐藏向量hnew代替原有的隐藏向量h继续输入剩余层的编码器模型,得到最后一层隐藏向量hend;步骤9:将步骤8得到的最后一层隐藏向量hend以及步骤3中的所述带掩码提示模板中掩码的位置计算出带掩码隐藏向量hmask,将两者结合得到最终隐藏向量hout;步骤10:将最终隐藏向量hout送入RoBERTa模型头中,得到最后的预测结果ypre;步骤11:通过交叉熵损失计算所述预测结果ypre和步骤4中的真实标签ytrue的差值,将差值通过反向传播传递回整个带有提示生成器模块的预训练模型,并更新提示生成器模块的权重和偏置;步骤12:不断迭代步骤6到步骤11,当所述交叉熵损失值收敛时或到达规定轮次时停止训练,保存训练完成的提示生成器模块;步骤13:训练完成的提示生成器模块即为当前预训练模型在该训练数据集子任务下的附加模块,后续使用预训练模型用于该任务时,只需要将训练好的提示生成器模块载入预训练模型中即可。

全文数据:

权利要求:

百度查询: 成都信息工程大学 一种基于Inception模块的提示微调方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。