买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京对酒当歌科技有限公司
摘要:本发明公开了一种基于零样本的歌声音色快速转换方法和装置,包括构建包含干人声和歌词文本的歌声数据集,将构建包含Hubert模型和残差量化码本的歌声特征解耦器来提取干人声的音频码本索引序列,并引入文本编码器来提取歌词文本的语素特征和语素索引序列,依次通过交叉预测来优化歌声特征解耦器,使其能够提升语音内容特征提取的准确性,在此基础上,引入表示韵律的音高特征和音色特征,通过对抗训练来增强生成器基于语音内容特征、音高特征以及音色特征生成合成人声的质量,实现歌曲人声音色转换为用户的音色的快速转换,且能保证转换质量。
主权项:1.一种基于零样本的歌声音色快速转换方法,其特征在于,包括以下步骤:构建包含干人声和歌词文本的歌声数据集;构建包含Hubert模型和残差量化码本的歌声特征解耦器,其中,Hubert模型用于提取干人声的初始内容特征,残差量化码本用于将初始内容特征映射为音频码本索引序列,引入文本编码器提取歌词文本的语素索引序列和语素特征,基于音频码本索引序列、语素索引序列以及语素特征进行交叉预测来训练歌声特征解耦器;在特征提取器中利用训练后的歌声特征解耦器结合音频超分处理来提取干人声的语音内容特征,同时提取干人声的音高特征和音色特征,在生成器中根据语音内容特征、音高特征以及音色特征生成合成人声,引入判别器对合成人声和干人声进行区分判别,并采用对抗训练方式训练特征提取器、生成器以及判别器;应用推理时利用训练后的特征提取器和生成器生成合成人声作为转转换后歌声,实现歌声音色快速转换。
全文数据:
权利要求:
百度查询: 北京对酒当歌科技有限公司 一种基于零样本的歌声音色快速转换方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。