恭喜厦门大学陈毅东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜厦门大学申请的专利一种基于互信息理论的自监督语音特征增强语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964551B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510430211.7,技术领域涉及:G10L13/08;该发明授权一种基于互信息理论的自监督语音特征增强语音合成方法是由陈毅东;潘家炜;史晓东设计研发完成,并于2025-04-08向国家知识产权局提交的专利申请。
本一种基于互信息理论的自监督语音特征增强语音合成方法在说明书摘要公布了:一种基于互信息理论的自监督语音特征增强语音合成方法,涉及语音合成技术领域。该方法通过引入自监督语音特征,作为文本的声学补充,设计基于互信息最大化和最小化的信息瓶颈模块,从自监督语音特征中提取紧凑且与任务相关的自监督表示,并通过最大化文本表示与自监督表示之间的互信息,增强文本表示的声学信息,从而提高语音合成的自然度和质量。在单说话人和多说话人语音合成场景下均表现出色,且具有良好的跨语言适应性,能够有效提升不同语言环境下的语音合成质量。
本发明授权一种基于互信息理论的自监督语音特征增强语音合成方法在权利要求书中公布了:1.一种基于互信息理论的自监督语音特征增强语音合成方法,其特征在于包括以下步骤: 1自监督语音特征提取:从预训练的自监督语音模型中提取自监督语音特征,采用双线性插值算法对自监督语音特征沿时间轴维度进行上采样,将其长度对齐到与梅尔谱图的帧数相同; 2构建基于互信息最大化和最小化的信息瓶颈模块:自监督语音特征S经过自监督编码器编码得到自监督表示Z,通过优化公式maxIZ;M-γIZ;S最大化自监督表示Z与梅尔谱图M之间的互信息IZ;M,同时最小化自监督表示Z与自监督语音特征S之间的互信息IZ;S,生成紧凑且与任务相关的自监督表示Z,γ为权重超参数,用于平衡两者之间的关系; 所述基于互信息最大化和最小化的信息瓶颈模块由自监督编码器和基于互信息理论的优化公式组成;所述自监督编码器采用非因果卷积网络WaveNet,对提取的自监督语音特征S进行编码,得到紧凑且与任务相关的自监督表示Z; 所述基于互信息理论的优化公式为: maxIZ;M-γIZ;S 其中,IZ;M表示自监督表示Z与梅尔谱图M之间的互信息,通过最大化该互信息确保自监督表示Z学习到与语音合成任务相关的声学信息;IZ;S表示自监督表示Z与自监督语音特征S之间的互信息,通过最小化该互信息保持自监督表示Z的紧凑性,消除冗余信息;γ为权重超参数,用于平衡两者之间的关系; IZ;M,IZ;S均采用MINE框架估计,所述MINE框架通过以下不等式估计互信息: IX;Y≥Ex,y[fx,y]-logEpx[Epyefx,y] 其中,IX;Y表示随机变量X与Y之间的互信息,衡量两者之间的统计依赖性;Ex,y[fx,y]表示函数fx;y在X和Y的联合分布Px;y下的期望值;Epx[Epyefx,y]表示在X和Y独立分布时,efx,y的期望;使用神经网络来逼近不等号右侧表达式的值,进而得到互信息的估计值,所述神经网络为3层MLP组成; 3文本表示增强:通过优化公式maxIT;Z最大化文本表示T与步骤2得到的自监督表示Z之间的互信息IT;Z,使文本表示T包含更多的来自于自监督表示的信息,增强文本表示的声学信息;其中,IT;Z为文本表示T和自监督表示Z的互信息,采用MINE框架估计; 4语音合成:基于变分推断VAE网络、基于流的先验增强网络VP-Flow和后处理网络Post-net构建语音合成模型,加入步骤2和步骤3的优化公式进行模型训练;使用训练后的语音合成模型进行推理,完成基于互信息理论的自监督语音特征增强语音合成。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。