买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都索贝数码科技股份有限公司
摘要:本发明公开了一种基于自回归类深度学习语音合成的可控输出方法及设备,属于自然语言处理和深度学习领域,包括步骤:基于自回归类深度学习语音合成完成对参考文本、参考语音、目标文本的语音合成;基于语音识别提取合成语音的待校对文本信息;基于校对匹配去除目标文本和待校对文本中所有非文字部分,分别提取目标文本音素和待校对文本音素,对目标文本音素和待校对文本音素进行音素匹配,输出匹配结果。若匹配结果为成功,则输出语音,否则重新进行以上步骤,直至校对匹配成功。本发明可实现自回归类深度学习语音合成的自动校对,改善自回归类深度学习语音合成中出现的漏词、重复、说错词的问题,提升自回归类深度学习语音合成的稳定性。
主权项:1.一种基于自回归类深度学习语音合成的可控输出方法,其特征在于,包括以下步骤:S1:基于自回归类深度学习语音合成方法,提取目标文本和参考文本的特征,以及提取参考音频的特征,将提取好的特征送入自回归类深度学习模型进行语音合成后,得到合成的语音;S2:对合成的语音进行语音识别,得到合成的语音对应的待校对文本;S3:对目标文本和待校对文本进行文本规范化处理,得到只含发音文字的目标文本和待校对文本,然后根据文本与音素间的固定编码关系,分别得到目标文本音素和待校对文本音素,再对目标文本音素和待校对文本音素进行音素匹配,并输出匹配结果;S4:对匹配结果进行判断,若匹配结果为成功,则合成的语音中没有出现漏词、重复、说错词问题,输出合成的语音;否则,回到步骤S1重新进行语音合成。
全文数据:
权利要求:
百度查询: 成都索贝数码科技股份有限公司 基于自回归类深度学习语音合成的可控输出方法及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。