买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门立马耀网络科技有限公司
摘要:本发明提供了一种结合自回归的端到端的文本合成语音方法及系统,涉及语音合成技术领域,包括将当前参考音频和待推理文本输入语音模型的语义语言模块,推理得到音频离散编码;将当前参考音频和待推理文本输入持续语言模块,推理得到音频的持续时间信息;将当前参考音频、待推理文本、音频离散编码、持续时间信息传入语音模型的信息编码模块,得到先验分布的均值和方差;基于均值和方差,采样得到先验分布的隐变量;将隐变量和当前参考音频传入生成器模块,生成音频。本方法解决了纯自回归文本到语音模型推理速度慢、容易吞字以及端到端模型需要依赖大量音频数据的问题。
主权项:1.一种结合自回归的端到端的文本合成语音方法,其特征在于,包括:将当前参考音频和待推理文本输入至语音模型的语义语言模块,推理得到音频离散编码,其中,所述语音模型为CMM-TTS模型;在推理得到音频离散编码时:基于语音模型的HuBert模块对所述当前参考音频进行编码,其编码结果表示为,其中表示当前参考音频的时间长度,50为当前参考音频的帧率,表示隐藏维度,表示数值是实数域的、维度是多维的;利用一维卷积和多层RVQ残差模块,将当前参考音频的帧率从50帧降25帧,再将其进行压缩,得到音频离散编码;将当前参考音频和待推理文本输入至语音模型的持续语言模块,推理得到音频的持续时间信息,其中,所述语义语言模块以及持续语言模块均为自回归模型;将所述当前参考音频、待推理文本、音频离散编码以及持续时间信息传入语音模型的信息编码模块,得到先验分布的均值和方差;基于所述均值和方差,采样得到先验分布的隐变量;将所述隐变量和当前参考音频传入至生成器模块,以生成音频;所述持续时间信息为音素级别的信息,将持续时间信息通过持续投影层,在音素级别上与所述待推理文本对齐,以使语音模型获知每个音素应该发音的时间;CMM-TTS模型具有零样本克隆声音能力,CMM-TTS模型包含6个模块部分,分别为信息编码模块、语义量化模块、持续时间模块、先验证编码模块、流模块以及生成器模块,还包括文本转音频后的文本序列,每个音素的发音时间,音频的线性谱;其中,CMM是一种基于Tacotron模型的条件Mel频谱合成模型;它是一种用于文本到语音合成的端到端模型,通过将输入的文本转换为Mel频谱,再通过声码器生成最终的语音。
全文数据:
权利要求:
百度查询: 厦门立马耀网络科技有限公司 一种结合自回归的端到端的文本合成语音方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。