买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:香港中文大学(深圳);深圳市未来智联网络研究院
摘要:本发明公开了一种面向语音合成的生成式语义通信的方法、系统和计算机设备,包括:发送端语义知识库获取示例语音信息,并对示例语音信息进行表征提取语音知识,其中,语音知识包括针对示例语音信息的特征码和特征码索引,语义编码器对示例语音信息和获取的文本信息进行语义编码生成语义数据包,信道编码器对语义数据包和特征码索引进行信道编码得到数据包,并通过通信信道发送至接收端;接收端的信道解码器对接收到的数据包进行信道解码,恢复语义数据包和特征码索引,接收端语义知识库根据特征码索引重建语音特征,语义解码器利用语义数据包和重建的语音特征合成目标语音。本发明可以有效降低传输数据量,提高语音合成效率。
主权项:1.一种面向语音合成的生成式语义通信的方法,其特征在于,包括:发送端语义知识库获取示例语音信息,并对所述示例语音信息进行表征提取语音知识,其中,所述语音知识包括针对所述示例语音信息的特征码和特征码索引,语义编码器对所述示例语音信息和获取的文本信息进行语义编码生成语义数据包,信道编码器对所述语义数据包和所述特征码索引进行信道编码得到数据包,并通过通信信道发送至接收端;所述接收端的信道解码器对接收到的数据包进行信道解码,恢复语义数据包和特征码索引,接收端语义知识库根据所述特征码索引重建语音特征,语义解码器利用所述语义数据包和重建的语音特征合成目标语音;其中,所述语义编码器对所述示例语音信息和获取的文本信息进行语义编码生成语义数据包,包括:所述语义编码器中的Transformer编码器提取所述示例语音信息中无法被所述发送端语义知识库输出的特征码表征的残差信息,定义为残差语音信息向量;文本分词器对所述文本信息进行分词和编码,得到文本向量;级联器将所述残差语音信息向量和所述文本向量进行级联,得到语义数据包;其中,所述发送端语义知识库中的语音大模型WavLM提取所述示例语音信息的特征向量,定义为WavLM特征向量,所述接收端语义知识库根据所述信道解码器输出的特征码索引重建所述示例语音信息的WavLM特征向量;其中,所述语义解码器利用所述语义数据包和重建的语音特征合成目标语音,包括:分离器将所述信道解码器输出的语义数据包进行信息分离,得到残差语音信息向量和文本向量;先验编码器根据所述残差语音信息向量、所述文本向量、重建的WavLM特征向量,生成面向语音合成任务的条件语音信息向量;扩散模型利用所述条件语音信息向量、所述残差语音信息向量、所述重建的WavLM特征向量,生成针对所述示例语音信息和所述文本信息的SoundStream特征向量;SoundStream将所述SoundStream特征向量转换为目标语音。
全文数据:
权利要求:
百度查询: 香港中文大学(深圳) 深圳市未来智联网络研究院 面向语音合成的生成式语义通信的方法、系统和计算机设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。