首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于解耦模块挖掘的文本风格迁移方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)

摘要:本发明公开了一种基于解耦模块挖掘的文本风格迁移方法,将给定任意句子与目标风格输入到预训练语言模型中,在保持输入句子内容不变的同时以产生含有目标风格属性的句子;所述预训练语言模型将前缀token作为一种虚拟token拼接在输入的句子之前,并通过一个可训练的矩阵,将前缀token映射为每一层的前缀embedding,则矩阵是唯一可以训练的前缀参数,使得在冻结预训练语言模型参数的同时仅训练调整连续的前缀参数;该文本风格迁移方法实现了高风格准确度与高语义保存度的文本风格迁移。

主权项:1.一种基于解耦模块挖掘的文本风格迁移方法,其特征在于,将给定任意句子与目标风格输入到预训练语言模型中,在保持输入句子内容不变的同时以产生含有目标风格属性的句子;所述预训练语言模型将前缀token作为一种虚拟token拼接在输入的句子之前,并通过一个可训练的矩阵,将前缀token映射为每一层的前缀embedding,则矩阵是唯一训练的前缀参数,使得在冻结预训练语言模型参数的同时仅训练调整连续的前缀参数;所述预训练语言模型的训练过程如下:步骤一、获取多个原始句子,基于通过思维链prompt引导的解耦大模型对每个原始句子进行解耦以挖掘该原始句子对应的原始属性模块,将原始句子分为原始属性模块和内容模块,所述内容模块为原始句子中去掉原始属性模块的部分;步骤二、原始句子在保留内容模块的同时将原始属性模块修改为目标属性模块,以转换原始句子的风格,得到合成平行句子;步骤三、利用BLEU分数来衡量合成平行句子的语义保存程度,从而过滤低语义保存度的合成平行句子,获得多组高质量平行数据及其解耦模块集合,将集合作为训练集以训练预训练语言模型,所述表示第个原始句子,表示第个原始句子对应的原始属性模块,表示第个原始句子对应的合成平行句子,表示第个原始属性模块对应的目标属性模块,是合成平行句子的数量;步骤四、将训练集中的原始句子和原始属性模块作为一组正例对,将原始句子和合成平行句子作为一组负例对,以原始句子和目标属性模块作为一组负例对;取训练集中每个句子的表征为,基于对比学习训练预训练语言模型,以优化前缀参数,所述表征包括原始句子、原始属性模块、合成平行句子以及目标属性模块对应的表征;步骤五、预训练语言模型在训练过程中,基于原始句子与合成平行句子,利用序列到序列损失在对数似然目标上进行梯度更新,以优化前缀参数。

全文数据:

权利要求:

百度查询: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于解耦模块挖掘的文本风格迁移方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。