一种解耦式语音自监督预训练方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：天津大学

摘要：本发明公开了一种解耦式语音自监督预训练方法，包括预训练和微调两个阶段。构建以卷积、Transformer、音高变化处理器和说话人信息处理器为核心的自监督预训练模型。输入语音后，卷积模块将语音编码为帧级特征；音高变化处理器提取音高变化表征，并从主分支剔除，将其替换为掩蔽向量后输入Transformer编码器。在编码器中间层加入说话人处理器模块来提取说话人表征，并从主分支表征中剔除。继续编码处理，最终映射到目标语音表征维度。第一轮预训练后，提取中间层表征，训练第二个K‑Means模型生成新的伪标签目标，进行第二轮预训练。利用加权求和机制获得任务特定表征，适用于各种下游任务。

主权项：1.一种解耦式语音自监督预训练方法，其特征在于，包括以下步骤：提取梅尔频率倒谱系数MFCC及其一阶和二阶差分特征；使用提取的特征训练第一个K-Means模型，将聚类中心作为每帧语音的伪标签，用于后续的预训练过程；同时,预训练EMA-DINO模型，命名为说话人教师模型，用于提供说话人信息的指导；输入语音数据后，首先经过卷积模块提取出帧级的特征，并行地，从输入语音数据中提取音高信息，并经过音高变化处理器加工得到音高变化表征；基于残差解耦的思想，将音高变化表征剔除；使用语音掩蔽预测的方式进行训练，确保深层Transformer表征中包含更多的内容信息；在Transformer的中间层，设置额外的说话人处理器，并将增强后的说话人信息剔除,得到语音提取模型；根据语音提取模型中间层表征来训练第二个K-Means模型生成新的伪标签目标，进行第二轮预训练；通过任务特定的权重对模型的所有中间表征进行加权求和，得到适用于各种下游语音任务的特定表征。

全文数据：

权利要求：

百度查询：天津大学一种解耦式语音自监督预训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种控制道壁件加工变形的夹具

下一篇：一种大袋自动包装线热封口装置

相关技术

一种控制道壁件加工变形的夹具

一种大袋自动包装线热封口装置

一种用于拉曼光谱检测的密封式液相流通池

一种柔性硅胶底托线条灯

一种电子工程用接线盒

一种汽车尾板开关门机构

一种用于果脯生产的分拣装置

一种发电机组用发动机尾气再利用装置

圆柱形产品等离子表面处理机

电动叉车驱动轮总成

一种植被种植覆盖结构及输变电扰动区域植被覆盖系统

一种剪断装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种解耦式语音自监督预训练方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务