成都浩喜力科技有限公司胡昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都浩喜力科技有限公司申请的专利基于机器学习算法的音色转换方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120236602B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510334911.6,技术领域涉及:G10L21/0232;该发明授权基于机器学习算法的音色转换方法及系统是由胡昊;李琪设计研发完成,并于2025-03-20向国家知识产权局提交的专利申请。
本基于机器学习算法的音色转换方法及系统在说明书摘要公布了:本申请提供一种基于机器学习算法的音色转换方法及系统,首先获取源音频信号和目标音色描述,将源音频信号分解为多个音频帧并提取频谱特征,把目标音色描述转换为多维音色特征向量,然后通过音色融合网络进行特征融合得到转换后频谱特征,再经过逆时频变换生成目标音频信号。此外,还涉及对转换后频谱特征的动态范围调整以及对目标音频信号的后处理等步骤,以提高音色转换的质量和效果,解决多种复杂情况下的音色转换问题。
本发明授权基于机器学习算法的音色转换方法及系统在权利要求书中公布了:1.一种基于机器学习算法的音色转换方法,其特征在于,所述方法包括: 获取源音频信号和目标音色描述,所述源音频信号包含待转换的原始音色特征,所述目标音色描述用于定义期望输出的音色属性; 将所述源音频信号分解为多个音频帧,并对每个所述音频帧执行时频变换处理,提取所述源音频信号的频谱特征; 将所述目标音色描述转换为多维音色特征向量,所述多维音色特征向量包含与所述音色属性对应的量化参数; 将所述频谱特征与所述多维音色特征向量输入音色融合网络进行特征融合,生成包含目标音色属性的转换后频谱特征; 对所述转换后频谱特征执行逆时频变换处理,生成目标音频信号,所述目标音频信号的音色属性与所述目标音色描述中的期望音色属性一致; 所述目标音色描述包括参考音频片段或用户输入的文本描述;当所述目标音色描述为参考音频片段时,对所述参考音频片段进行基频提取和共振峰分析,生成所述多维音色特征向量;当所述目标音色描述为文本描述时,调用预训练的音色属性解析模型,将所述文本描述映射为所述多维音色特征向量中的量化参数; 所述音色融合网络包括编码器和解码器,所述编码器由多个卷积层组成,用于将所述频谱特征压缩为潜在空间特征;所述解码器由多个反卷积层组成,用于将所述潜在空间特征与所述多维音色特征向量进行通道拼接后重构为所述转换后频谱特征;其中,所述编码器和所述解码器通过跳跃连接传递低频信息以保留所述源音频信号的语音内容; 所述音色融合网络的训练过程包括:采集多组不同音色的训练音频数据,并为每组训练音频数据标注对应的音色属性标签;将训练音频的频谱特征输入所述编码器得到潜在特征,并将标注的所述音色属性标签转换为条件向量;将所述潜在特征与所述条件向量输入所述解码器,生成重构频谱特征;计算所述重构频谱特征与目标频谱特征之间的均方误差损失,并联合优化所述编码器和所述解码器的网络参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都浩喜力科技有限公司,其通讯地址为:610000 四川省成都市高新区吉泰路33号1栋2层1、2号、4层1、2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励