买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州东上智能科技有限公司
摘要:本发明公开了一种基于上下文感知扩散模型的口吃语音编辑方法和系统,属于语音编辑领域。首先获取口语语音‑文本组合,从文本中提取文本特征向量以及随机遮罩后的口语语音特征向量;基于上下文感知机制提取上下文信息;将上下文信息、当前时间步、当前时间步的梅尔频谱特征输入扩散模型,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;对上下文感知机制和扩散模型进行联合训练;针对带有口吃的口语语音,遮罩口吃区域,采用训练好的上下文感知机制和扩散模型生成编辑后的语音片段。本发明通过从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程,从而提高了口吃语音编辑的音质与自然度。
主权项:1.一种基于上下文感知扩散模型的口吃语音编辑方法,其特征在于,包括:步骤1,获取口语语音-文本组合,从文本中提取文本特征向量;对口语语音进行随机遮罩,提取遮罩后的口语语音特征向量;步骤2,基于上下文感知机制,从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息;步骤3,将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型,迭代计算上一时间步的梅尔频谱特征,直至迭代地重建出遮罩部分对应语音的梅尔频谱特征;步骤4,利用口语语音-文本组合的一一对应关系,计算扩散模型的损失函数项以及上下文感知机制的损失函数项,对上下文感知机制和扩散模型进行联合训练;步骤5,针对带有口吃的口语语音,遮罩口吃区域,采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量,采用步骤2-3的方法,利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。
全文数据:
权利要求:
百度查询: 杭州东上智能科技有限公司 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。