恭喜慧言科技(天津)有限公司张句获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜慧言科技(天津)有限公司申请的专利基于说话人情感语音合成模型的对抗与元学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115359778B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211010973.4,技术领域涉及:G10L13/04;该发明授权基于说话人情感语音合成模型的对抗与元学习方法是由张句;贡诚;王宇光;关昊天设计研发完成,并于2022-08-23向国家知识产权局提交的专利申请。
本基于说话人情感语音合成模型的对抗与元学习方法在说明书摘要公布了:本发明属于语音合成深度学习技术领域,具体涉及一种基于说话人情感语音合成模型的对抗与元学习方法,利用对抗训练与元学习的方式对情感语音合成系统进行优化。包括数据预处理、端到端语音合成基础模型的设计以及添加对抗训练模块用来抹去情感嵌入表示中的音色信息,对抗模块主要包含一个梯度反转层和一个speaker分类器和基于元学习的训练。采用元学习的方式提升情感语音合成模型的泛化能力,使其能够在少量说话人语音数据上进行快速适应。
本发明授权基于说话人情感语音合成模型的对抗与元学习方法在权利要求书中公布了:1.基于说话人情感语音合成模型的对抗与元学习方法,其特征在于,包括如下步骤:步骤一,数据的预处理:文本需要进行前端处理,而文本与音频成对的数据作为训练数据,同时还需进行梅尔谱特征的提取;步骤二,端到端语音合成基础模型的设计:基于端到端语音合成Tacotron2进行设计,对于情感语音合成任务修改如下:1)添加说话人信息,不同的说话人编码为不同的speakerID,同时将speakerID作为输入,经过查表LUT得到说话人嵌入表示;2)添加情感编码器,用来学习情感嵌入表示,其中情感编码器的输入为参考音频,情感编码器包含一个5层的一维卷积,以及一个双向的LSTM,经过情感编码器后会得到情感嵌入表示;其中,说话人嵌入表示和情感嵌入表示会和Tacotron2模型的文本编码器输出的文本表示结合,共同指导最终的梅尔谱特征的生成;步骤三,添加对抗训练模块:添加对抗训练模块用来抹去情感嵌入表示中的音色信息,对抗模块包含一个梯度反转层和一个speaker分类器;在添加完对抗训练模块之后,首先采用几个不同说话人和情感的数据进行预先训练,用来得到一个基础的情感语音合成模型,实现对于训练集中的说话人的情感语音合成;定义为此时的神经网络参数,并作为步骤四的初始参数;步骤四,基于元学习的训练:采用元学习的方式对步骤三所训练得到的情感语音合成模型进行再次的训练,包含以下步骤:1)首先利用多说话人语音合成数据库中构建一系列的meta-tasks元任务集,每个meta-task元任务的supportset训练集包含相同说话人的K个样本和Q个样本,queryset测试集包含相同说话人的K个样本和Q个样本,并定义;定义每个样本为,其中为样本的文本表示,为样本的声学特征,声学特征为梅尔谱特征;2)开始迭代执行以下训练过程:a采样任意一个训练任务m,使用任务m的SupportSet,基于任务m的学习率,对进行一次优化,更新得到新的参数;进行一次优化即表示对训练的神经网络权重进行一次反向传播,并根据梯度进行梯度下降,从而更新权重;b基于一次优化后的,使用QuerySet计算任务m的loss=,并计算对的梯度;其中,loss为步骤三所训练得到的情感语音合成模型的损失函数,具体指的是模型预测的声学特征和样本的真实特征之间的误差;c用上述梯度,乘以meta网络的学习率,更新神经网络参数得到;其中,指的是步骤三之后得到的神经网络模型参数,指的是一次更新之后的参数;d重复以上a至c的训练过程;步骤五,合成音频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人慧言科技(天津)有限公司,其通讯地址为:300384 天津市滨海新区华苑产业区海泰发展六道6号海泰绿色产业基地J座210;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。