买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京海天瑞声科技股份有限公司
摘要:本公开涉及计算机技术中语音处理领域,关于一种发音预测方法、发音预测装置、电子设备及存储介质。针对单一模态的数据无法应对复杂发音的问题,发音预测方法包括:获取待预测数据,并解析所述待预测数据的数据模态;基于发音预测模型和所述数据模态,对所述待预测数据进行发音预测,得到发音预测结果;其中,所述发音预测模型的输入为多模态数据,所述发音预测模型的输出为发音预测结果。通过本公开,实现了将多模态数据输入模型,对待预测数据进行发音预测,提高了发音预测的准确性。
主权项:1.一种发音预测方法,其特征在于,包括:获取待预测数据,并解析所述待预测数据的数据模态;基于发音预测模型和所述数据模态,对所述待预测数据进行发音预测,得到发音预测结果;其中,所述发音预测模型的输入为多模态数据,所述发音预测模型的输出为发音预测结果;所述发音预测模型为具有自动编码器解码器架构的模型;所述对所述待预测数据进行发音预测,包括:基于所述待预测数据,构建所述发音预测模型的解码器的输入序列;其中,在第一次解码时,构建第一输入序列中依次包括以下内容:第一标签、待预测数据、第二标签、第三标签以及第四标签,基于所述第一输入序列对所述待预测数据进行发音预测,得到第一输出序列,所述第一输出序列中依次包括待预测数据、第二标签、第三标签、第四标签以及包含一位的发音预测结果;在第i次解码时,基于第一输出序列,构建第二输入序列,所述第二输入序列中依次包括以下内容:第一标签、待预测数据、第二标签、第三标签、第四标签以及i-1位的发音预测结果,基于所述第二输入序列对所述待预测数据进行发音预测,得到第二输出序列,所述第二输出序列中依次包括待预测数据、第二标签、第三标签、第四标签以及包含i位的发音预测结果,所述i为大于1的整数;重复执行如上过程,直至所述发音预测模型的解码器输出包含第五标签的输出序列,得到发音预测结果,所述输出序列依次包括待预测数据、第二标签、第三标签、第四标签、发音预测结果以及第五标签;其中,所述第一标签用于标识所述待预测数据的开始位置,所述第二标签用于标识开始进行发音预测,所述第三标签用于标识所述待预测数据对应的语种,所述第四标签用于标识所述待预测数据对应的数据模态,所述第五标签用于标识发音预测结束。
全文数据:
权利要求:
百度查询: 北京海天瑞声科技股份有限公司 发音预测方法、发音预测装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。