一种基于数据生成的声音克隆方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：普强时代(珠海横琴)信息技术有限公司

摘要：本发明提供一种基于数据生成的声音克隆方法及系统，方法包括：录制采集用户少量的语音数据，用于捕捉用户的基本音色特征；并得到语音数据对应的标注文本数据；使用少量用户语音数据和对应的标注，基于zero‑shot的声音克隆系统生成更多用户音色的语音数据；将用户真实录制的语音数据和克隆系统生成的用户音色语音数据合并在一起；使用合并得到的语音数据，微调语音合成模型，得到用户音色的语音合成模型；将用户音色的语音合成模型部署到语音合成系统中，实现合成目标音色任意内容的语音数据。本发明只需提供少量用户语音样本，即可生成足够多的数据用于模型训练和微调，降低了录音时长，提高声音克隆效率，优化用户体验，降低硬件资源部署成本，提高可扩展性和灵活性。

主权项：1.一种基于数据生成的声音克隆方法，其特征在于，包括以下步骤：S1、录制采集用户少量的语音数据，用于捕捉用户的基本音色特征；并得到所述语音数据对应的标注文本数据；S2、使用S1步骤录制采集的少量用户语音数据，基于zero-shot的声音克隆系统生成更多用户音色的语音数据；S3、将S1步骤录制的用户语音数据和S2步骤基于zero-shot声音克隆系统生成的用户音色语音数据合并在一起；所述录制的语音数据与基于zero-shot生成的用户音色语音数据的合并方法是取两者的并集，计算表达式为：（1）式（1）中，表示S1步骤中的用户真实录音数据，表示S2步骤中基于zero-shot系统生成的用户音色语音数据；S4、使用S3步骤合并得到的语音数据，微调语音合成模型，得到用户音色的语音合成模型；S5、将S4步骤微调后得到的用户音色的语音合成模型部署到语音合成系统中，使该语音合成系统实现合成目标音色任意内容的语音数据。

全文数据：

权利要求：

百度查询：普强时代(珠海横琴)信息技术有限公司一种基于数据生成的声音克隆方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于环保设备制造的金属线材加工设备

下一篇：一种安全性高的弹簧式紧急泄放阀

相关技术

一种用于环保设备制造的金属线材加工设备

一种安全性高的弹簧式紧急泄放阀

一种焦炉自动加热耦合控制方法

电动汽车充电站的功率预测数据增强方法及功率预测方法

复合结构体、叶片

一种总控系统与播出分控系统一体化自动切换控制方法

一种内窥镜下套扎装置

一种破碎机

阻燃尼龙及其制备方法

一种基于事件相机的模糊车牌识别方法

一种锂电池加速参数辨识方法、系统及电子设备

山地风电场风电机组叶轮组装的双承平台及抗风方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于数据生成的声音克隆方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务