慧言科技(天津)有限公司王龙标获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉慧言科技(天津)有限公司申请的专利基于自监督学习和互信息解耦技术的语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115578996B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211191537.1,技术领域涉及:G10L13/047;该发明授权基于自监督学习和互信息解耦技术的语音合成方法是由王龙标;贡诚;张句;王宇光;关昊天设计研发完成,并于2022-09-28向国家知识产权局提交的专利申请。
本基于自监督学习和互信息解耦技术的语音合成方法在说明书摘要公布了:本发明公开基于自监督学习和互信息解耦技术的语音合成方法,主要包括数据预处理;采用HUBERT和wav2vec模型作为预训练的大模型,并采用大量的无标签方式对齐进行训练;设计说话人分类和风格分类两个任务作为下游任务,固定训练模型的权重参数,用于得到任务相关的特征表示;利用互信息对Tspeaker和Tstyle进行解耦;将学习好的Tspeaker和Tstyle添加到端到端语音合成模型中,端到端语音合成模型采用encoder‑attention‑decoder结构。本发明提升多说话人和多风格语音合成的质量,同时提高合成模型对于少量数据的快速适应能力。
本发明授权基于自监督学习和互信息解耦技术的语音合成方法在权利要求书中公布了:1.基于自监督学习和互信息解耦技术的语音合成方法,其特征在于,包括如下四个步骤: 步骤一,数据预处理:文本需要进行前端处理,以字符作为输入,而文本与音频成对的数据作为训练数据; 预处理还需进行梅尔谱特征的提取; 步骤二,针对大模型采用自监督学习的方式进行训练:采用HUBERT和wav2vec模型作为预训练大模型,并采用大量的无标签方式对齐进行训练; 步骤三,设计说话人分类和风格分类两个任务作为下游任务,固定步骤二所训练模型的权重参数,用于得到任务相关的特征表示: 1步骤二中的大模型包含N层的神经网络,N层网络的输出[P1,P2,…,PN]都用来学习最后的任务相关特征表示; 2设计注意力机制模块,其为可以学习的神经网络层,用于将N层神经网络的输出进行加权,得到暂时的通用特征表示PF,如下公式所示: PF=AttenP1,P2,…,PN其中,Atten是为可学习的网络层,用来学习权重,对[P1,P2,…,PN]进行加权; 3说话人分类和风格分类采用线性层加激活函数用来预测属于哪一种说话人或哪一种风格类别的概率,并学习到初步的任务相关的特征Tspeaker和Tstyle; 步骤四,利用互信息对Tspeaker和Tstyle进行解耦,互信息反映两个变量的相关性,假设两个随机变量X、Y,两个变量之间的互信息MIX;Y可以通过计算联合概率分布PX,Y和两个边缘概率分布的乘积PXPY的KL散度来计算; 在整个下游任务的训练中,需要将MIX;Y也作为一种额外的损失函数进行约束,保证Tspeaker和Tstyle两者之间不会有相关性; 需要约束MIX;Y越来越小; 步骤五,将学习好的Tspeaker和Tstyle添加到端到端语音合成模型中,端到端语音合成模型采用encoder‑attention‑decoder结构; 其中,端到端模型先经过大规模数据的预训练,预训练时Tspeaker和Tstyle都全为0的向量,最后在多说话人和多风格数据集上进行finetune,得到最终的模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人慧言科技(天津)有限公司,其通讯地址为:300384 天津市华苑产业区海泰发展六道6号海泰绿色产业基地J座210、211;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励