买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:腾讯美国有限责任公司
摘要:无监督文本到语音系统利用词典来将输入文本映射到音素序列,该音素序列通过说话者相关的持续时间模型被扩展到帧级强制对齐。对齐映射模块将强制对齐转换为无监督对齐UA。然后,用作自监督TTSAM的条件解纠缠顺序变分自动编码器C‑DSVAE采用预测的UA和目标说话者嵌入来生成梅尔谱图,该梅尔谱图通过神经声码器最终被转换为波形。
主权项:1.一种由至少一个处理器执行的无监督文本到语音方法,并且所述无监督文本到语音方法包括:接收输入文本;生成声学模型,包括:经由词典使所述输入文本分解成目标语言的至少一个合成声音;预测根据所述输入文本生成的语音的持续时间;对所述至少一个合成声音进行对齐来将所述输入文本正则化以遵循所述目标语言的声音作为对齐输出;将所述对齐输出和根据目标输入文本生成的所述语音的持续时间自动编码为输出波形;以及根据所述输出波形输出声音。
全文数据:
权利要求:
百度查询: 腾讯美国有限责任公司 不使用平行文本-音频数据的文本到语音合成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。