中国科学院声学研究所张鹏远获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院声学研究所申请的专利一种端到端多尺度风格迁移的歌声转换方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118969013B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410944150.1,技术领域涉及:G10L25/27;该发明授权一种端到端多尺度风格迁移的歌声转换方法及系统是由张鹏远;杨晨;尚增强;王丽设计研发完成,并于2024-07-15向国家知识产权局提交的专利申请。
本一种端到端多尺度风格迁移的歌声转换方法及系统在说明书摘要公布了:本发明属于歌声转换领域,涉及一种端到端多尺度风格迁移的歌声转换方法及系统。该方法包括:采集待转换的目标歌声并进行预处理,去除伴奏音;将预处理后的目标歌声和拟采用风格的参考歌声输入预先建立和训练好的歌声转换模型,输出具有参考歌声风格的合成歌声,实现风格迁移;所述歌声转换模型用于从预处理后的目标歌声中提取内容向量和MIDI,从参考歌声中提取全局和局部的风格向量、音高和CQT谱,经端到端处理得到歌声波形。本发明对歌唱进行多尺度风格建模,解决了经典歌声转换中风格相似性差的问题,并且进一步提升了音质,提升了歌声的自然度。
本发明授权一种端到端多尺度风格迁移的歌声转换方法及系统在权利要求书中公布了:1.一种端到端多尺度风格迁移的歌声转换方法,包括:采集待转换的目标歌声并进行预处理,去除伴奏音;将预处理后的目标歌声和拟采用风格的参考歌声输入预先建立和训练好的歌声转换模型,输出具有参考歌声风格的合成歌声,实现风格迁移;所述歌声转换模型用于从预处理后的目标歌声中提取内容向量和MIDI,从参考歌声中提取全局和局部的风格向量、音高和CQT谱,经端到端处理得到歌声波形;所述歌声转换模型包括:特征提取模块、残差风格编码器、内容编码器、不确定性风格实例归一化模块、音高预测器、先验编码器和神经声码器;其中,所述特征提取模块,用于对预处理后的目标歌声提取内容向量和MIDI,对参考歌声提取音高F0及F0的一阶差分ΔF0、包括音色向量Gt和演唱风格向量Gs的全局风格向量s及CQT谱;所述残差风格编码器,用于根据参考歌声的CQT谱和ΔF0提取MIDI尺度的包括修饰音的局部风格向量ls;所述内容编码器,用于将内容向量从768维编码到192维,将MIDI编码到128维,拼接后输入4层FFT网络,得到编码后的内容向量Ec分别输入不确定性风格实例归一化模块和残差风格编码器;所述不确定性风格实例归一化模块,用于对编码后的内容向量Ec实例归一化,对全局风格向量s计算尺度和偏置向量的通道协方差矩阵,得到风格扰动后的内容表征;所述音高预测器,用于对风格扰动后的内容表征和全局的风格向量s通过自适应实例归一化融合,再通过4层的FFT输出预测的音高,将音高约束在MIDI音高的设定范围内,避免跑调;所述先验编码器,采用4层的FFT,用于根据预测的音高和经过不确定性风格实例归一化模块风格扰动后的内容向量预测先验分布的均值和方差计算多元高斯分布,从中采样得到192维先验分布的采样特征;所述神经声码器,采用基于nsfHiFiGAN的结构,用于根据先验分布的采样特征,输出预测歌声波形。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院声学研究所,其通讯地址为:100190 北京市海淀区北四环西路21号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。