一种基于上下文感知扩散模型的口吃语音编辑方法和系统

导航：龙图腾网> 最新专利技术> 一种基于上下文感知扩散模型的口吃语音编辑方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州东上智能科技有限公司

摘要：本发明公开了一种基于上下文感知扩散模型的口吃语音编辑方法和系统，属于语音编辑领域。首先获取口语语音‑文本组合，从文本中提取文本特征向量以及随机遮罩后的口语语音特征向量；基于上下文感知机制提取上下文信息；将上下文信息、当前时间步、当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；对上下文感知机制和扩散模型进行联合训练；针对带有口吃的口语语音，遮罩口吃区域，采用训练好的上下文感知机制和扩散模型生成编辑后的语音片段。本发明通过从口语语音中提取丰富的上下文信息来指导扩散模型的迭代过程，从而提高了口吃语音编辑的音质与自然度。

主权项：1.一种基于上下文感知扩散模型的口吃语音编辑方法，其特征在于，包括：步骤1，获取口语语音-文本组合，从文本中提取文本特征向量；对口语语音进行随机遮罩，提取遮罩后的口语语音特征向量；步骤2，基于上下文感知机制，从步骤1的文本特征向量和遮罩后的口语语音特征向量中提取上下文信息；步骤3，将上下文信息、当前时间步、扩散过程中当前时间步的梅尔频谱特征输入扩散模型，迭代计算上一时间步的梅尔频谱特征，直至迭代地重建出遮罩部分对应语音的梅尔频谱特征；步骤4，利用口语语音-文本组合的一一对应关系，计算扩散模型的损失函数项以及上下文感知机制的损失函数项，对上下文感知机制和扩散模型进行联合训练；步骤5，针对带有口吃的口语语音，遮罩口吃区域，采用步骤1的方法提取目标文本的文本特征向量和遮罩后的口语语音特征向量，采用步骤2-3的方法，利用训练后的上下文感知机制和扩散模型生成编辑后的语音片段。

全文数据：

权利要求：

百度查询：杭州东上智能科技有限公司一种基于上下文感知扩散模型的口吃语音编辑方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种燃料舱搭载精度控制方法和燃料舱

下一篇：一种室内立式蔬菜栽培架

相关技术

一种燃料舱搭载精度控制方法和燃料舱

一种室内立式蔬菜栽培架

基于大语言模型的代码处理方法、装置、设备和介质

一种无线电力传输方法、无线电力发送器和无线电力接收器

一种高速公路路网级路面养护中长期规划决策方法及系统

降噪模型的训练方法、图像降噪方法、电子设备及介质

基于海洋渔业价值链的海产品汞金属总量核算方法和装置

一种木门加工灰尘清理装置

一种塑管熔接装置

公路软土路基超载预压时超载比的确定方法、装置及介质

一种基于电子元器件控制的防卡死智能锁体

基于FPN的复杂环境典型树木高效智能识别方法及系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于上下文感知扩散模型的口吃语音编辑方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务