一种基于自监督学习的语言查询目标声音提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学

摘要：本发明公开了一种基于自监督学习的语言查询目标声音提取方法。该方法可以在不需要人工标注的文本‑音频数据对的情况下，训练一个以自然语言查询作为条件的目标声音提取系统。具体而言，本发明基于对比学习的音频文本预训练模型，首先使用预训练模型的文本编码器对大量的文本数据进行编码，构建离线文本特征缓存，之后通过相似性匹配算法，从文本特征缓存中提取并构建与目标音频匹配的文本特征，并以此特征作为条件，指导目标声音提取网络在包含目标音频的混合音频中提取出目标音频。本发明所提方法在多个数据集上的评估表现优异，各项指标均接近或者超过有监督学习的方法，证明本发明具有较强的实用价值。

主权项：1.一种基于自监督学习的语言查询目标声音提取方法，该方法在模型训练时，基于对比学习音频文本预训练模型，自动构造与目标音频匹配的文本特征向量，从而可以实现在不需要人工标注的音频-文本数据对的情况下，训练一个基于自然语言查询的目标声音提取系统，具体步骤包括：步骤1：构建离线文本特征缓存：准备音频描述文本库，包含N条音频描述文本，使用对比学习音频文本预训练模型的文本编码器，分别对每一条文本提取一个D维的文本特征向量，从而构建一个N×D维的离线文本特征缓存；步骤2：自监督地训练语言查询目标声音提取系统，包括：步骤2.1：构建训练音频，所述训练音频包含混合音频和目标音频，具体为：准备音频数据库，包含M段音频，在每一步的训练过程中，任意从音频数据库中抽取出两段不同的音频，将其中的一段视为要提取的目标音频，另一段视为干扰音频，两段音频加权相加后构造信号干扰比为R的混合音频；步骤2.2：基于相似性匹配构造与目标音频匹配的文本特征向量：使用对比学习音频文本预训练模型的音频编码器，对目标音频提取D维的音频特征向量，将该音频特征向量视为查询向量，并将步骤1中构建的文本特征缓存视为键、值向量，通过查询向量与键向量之间的点积运算得到相似度得分，并以相似度得分为权重，将得分最大的K个键向量对应的值向量进行加权和计算，加权和向量经过L2归一化后即可获得与目标音频匹配的文本特征向量；步骤2.3：训练目标声音提取模型：构造深度神经网络模型，该模型以步骤2.1获得的混合音频作为模型输入，以步骤2.2获得的文本特征向量作为条件输入，该模型以文本特征向量为条件，在混合音频中提取出目标音频，基于提取音频与步骤2.1中的目标音频的相似度构造损失函数，使用梯度下降算法训练模型；步骤3：语言查询目标声音提取系统推理：用户输入任意包含多个声音事件的音频，并输入待提取音频事件的自然语言描述，使用对比学习音频文本预训练模型的文本编码器，对输入的自然语言进行编码，得到D维的文本特征向量，步骤2.3中训练好的提取模型即可在该特征向量的控制下，提取出输入音频中用户想要提取的目标声音。

全文数据：

权利要求：

百度查询：山东大学一种基于自监督学习的语言查询目标声音提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种打桩导向架及其施工方法

下一篇：具有冲击吸收性能的袜和衬垫

相关技术

一种打桩导向架及其施工方法

具有冲击吸收性能的袜和衬垫

半导体器件

一种通话辅助方法、装置、设备及存储介质

利用率结构分布评估方法、装置、设备、介质及产品

一种网络地址处理方法、装置、电子设备、介质

一种基于近红外光谱三七粉特征提取的质量检测方法

一种无线充电发射端控制方法及控制模块

提升含风电储能电池的虚拟电厂二次调频性能的控制方法

页张叠堆检测装置

用于声音事件定位和检测的方法和系统

云资源消耗优化方法、装置、计算机设备及存储介质

查询相关技术

慢查询识别的方法和装置_北京沃东天骏信息技术有限公司_202010081806.3

数据查询方法和装置_北京沃东天骏信息技术有限公司_202010044001.1

数据查询方法及装置_新华三大数据技术有限公司_202410804257.6

联合数据查询方法和装置_中国移动通信集团浙江有限公司_202311640907.X

信息查询方法、装置、设备、存储介质及产品_中移动金融科技有限公司_202410289134.3

匿踪查询系统、方法、设备、介质及产品_中国移动通信集团北京有限公司_202410912246.X

指标查询方法、装置、设备及存储介质_广州三七极彩网络科技有限公司_202410861278.1

查询处理方法、装置及电子设备_百度(中国)有限公司_202410942656.9

一种非晶材料数据查询系统_华中科技大学_202410990946.0

一种日志查询方法及装置_平安银行股份有限公司_202410774089.0

目标相关技术

成像计量目标及方法_科磊股份有限公司_202110100880.X

目标检测模型的训练方法、目标检测方法及装置、设备_中国移动通信有限公司研究院_202410009597.X

一种目标区域内目标用户的转移方法、装置、设备及介质_浙江云通数达科技有限公司_202411267499.2

一种基于目标识别的室内目标检测系统及方法_南京理工大学_202410914434.6

TA确定方法、装置、目标传输接入点和目标终端_中国电信股份有限公司_202410962284.6

一种用于红外成像目标模拟系统的目标识别方法_西安高商智能科技有限责任公司_202411274720.7

目标邻区确定方法及装置_中国移动通信集团黑龙江有限公司_202311136226.X

车辆目标识别检验装置_济宁港航龙拱港有限公司_202323545725.2

一种目标高度已知的SAR动目标一维测角定位方法_中国电子科技集团公司第三十八研究所_202410837723.0

目标检测方法、装置、设备及存储介质_中国科学技术大学_202210248035.1

语言相关技术

基于大语言模型的业务处理方法及装置_中国移动通信集团浙江有限公司_202410695325.X

基于转换器的自回归语言模型选择_微软技术许可有限责任公司_202280092806.0

页面多语言展示的方法和装置_北京沃东天骏信息技术有限公司_202010474452.9

用于自然语言分类的训练数据扩展_国际商业机器公司_201980033219.2

用于训练语言模型的设备和方法_竞舞娱乐私人有限公司_202410447863.7

基于多模态大语言模型的关系抽取方法_南京大学_202410039197.3

大语言模型构建方法、文本处理方法、系统、设备及介质_中电信人工智能科技(北京)有限公司_202410895698.1

基于语言模型的文本补全方法、装置、设备及存储介质_平安科技(深圳)有限公司_202110712451.8

一种基于自监督学习的语言查询目标声音提取方法_山东大学_202410688469.2

语言模型评测方法、文本处理方法及相关产品_书行科技(北京)有限公司_202410812252.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于自监督学习的语言查询目标声音提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务