浙江华智万像科技有限公司盛泽文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江华智万像科技有限公司申请的专利语音生成方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120279888B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510765969.6,技术领域涉及:G10L13/10;该发明授权语音生成方法和装置是由盛泽文;齐克宇设计研发完成,并于2025-06-10向国家知识产权局提交的专利申请。
本语音生成方法和装置在说明书摘要公布了:本申请涉及一种语音生成方法和装置,其中,该语音生成方法包括:将输入文本对应的第一语音数据进行特征提取,得到第一语音数据的第一气口特征和第二气口特征;将第一气口特征和第二气口特征进行融合,得到气口融合特征;通过预训练的气口预测模型对气口融合特征进行处理,得到第一语音数据的气口特征信息;确定输入文本对应的声学特征信息,基于气口特征信息和声学特征信息,生成与输入文本对应的第二语音数据。通过本申请,解决了无法生成准确还原气口特征的语音,导致生成语音的流畅性和自然性不足的问题,实现了能够生成准确还原气口特征的语音,显著提升语音生成的拟人化。
本发明授权语音生成方法和装置在权利要求书中公布了:1.一种语音生成方法,其特征在于,包括: 将输入文本对应的第一语音数据进行特征提取,得到所述第一语音数据的第一气口特征和第二气口特征;其中,所述第一气口特征是包含所述第一语音数据中气口特征信息的动态梅尔频率倒谱系数特征向量,所述第二气口特征是包含所述第一语音数据中气口特征信息的自监督语音表示学习特征向量; 其中,所述将输入文本对应的第一语音数据进行特征提取,得到所述第一语音数据的第一气口特征和第二气口特征,包括:确定所述第一语音数据的静态梅尔频率倒谱系数特征向量,以及与所述静态梅尔频率倒谱系数特征向量对应的一阶差分系数和二阶差分系数;基于所述静态梅尔频率倒谱系数特征向量、所述一阶差分系数和所述二阶差分系数,确定所述第一语音数据的所述第一气口特征;通过自监督语音表示学习模型对所述第一语音数据的多个音频片段进行处理,基于处理结果确定所述第一语音数据的所述第二气口特征; 其中,所述通过自监督语音表示学习模型对所述第一语音数据的多个音频片段进行处理,基于处理结果确定所述第一语音数据的所述第二气口特征,包括:将预处理后的所述第一语音数据切分为多个所述音频片段;通过自监督语音表示学习模型对各所述音频片段进行处理,得到所述自监督语音表示学习模型中每个目标输出层的输出结果;所述目标输出层指的是对非语音事件敏感度最高的输出层;将各所述目标输出层的所述输出结果进行加权融合,得到所述第一语音数据的所述第二气口特征; 将所述第一气口特征和所述第二气口特征进行融合,得到所述第一语音数据的气口融合特征; 通过预训练的气口预测模型对所述第一语音数据的气口融合特征进行处理,得到所述第一语音数据的气口特征信息;所述气口特征信息包括所述第一语音数据中每个音频帧为气口位置的概率值; 确定所述输入文本对应的声学特征信息,基于所述气口特征信息和所述声学特征信息,生成与所述输入文本对应的第二语音数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江华智万像科技有限公司,其通讯地址为:310051 浙江省杭州市滨江区西兴街道阡陌路482号A楼3层3652室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。