安徽大学范存航获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉安徽大学申请的专利基于多尺度多模态对齐网络的目标说话人提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120126454B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510290875.8,技术领域涉及:G10L15/02;该发明授权基于多尺度多模态对齐网络的目标说话人提取方法及系统是由范存航;陈颖;吕钊设计研发完成,并于2025-03-12向国家知识产权局提交的专利申请。
本基于多尺度多模态对齐网络的目标说话人提取方法及系统在说明书摘要公布了:本发明公开了基于多尺度多模态对齐网络的目标说话人提取方法及系统,涉及目标说话人提取技术领域。本发明构建了多尺度多模态对齐网络来进行目标说话人提取,其一方面通过多尺度编码来获取不同时间尺度的语音嵌入、并通过多方向深度编码提取出更加丰富的语音嵌入;另一方面,引入了基于对比学习的模态对齐部,使其在网络训练时在同一时间步长上最小化脑电特征与语音嵌入之间的距离、并构建出噪声对比估计损失以配合基于语音解码部输出而构建的尺度不变信号失真比损失组成整个网络使用的损失函数,不仅实现了跨模态数据的对齐、并降低多模态融合的难度,而且实现了对网络整体参数的调整,保证并提高了网络进行目标说话人提取的整体性能。
本发明授权基于多尺度多模态对齐网络的目标说话人提取方法及系统在权利要求书中公布了:1.一种基于多尺度多模态对齐网络的目标说话人提取方法,其特征在于,包括: 步骤一,获取多说话人场景中的混合语音Mixture、及受Mixture刺激产生的脑电数据EEG; 步骤二,对Mixture进行下采样处理以减少计算量,得到混合语音Mixture'; 对EEG先进行预处理以去噪、再进行相应的上采样以匹配Mixture',得到脑电数据EEG'; 步骤三,将Mixture'、EEG'输入训练好的多尺度多模态对齐网络进行处理,得到目标说话人语音 其中,多尺度多模态对齐网络包括: 语音编码部,其用于先通过多尺度编码从Mixture获取4种时间尺度下的语音嵌入X1~X4、并将X1~X4聚合成语音嵌入Xc,再通过多方向深度编码从X1~X4中提取出更加丰富的语音嵌入接着对进行维度调整以得到语音嵌入脑电编码部,其用于先从EEG'提取出脑电特征E、再对E进行填充以得到与时间维度相同的脑电特征 说话人提取部,其用于先对和进行处理以得到目标语音掩码M、再将M与Xc进行相乘以得到目标语音特征S; 语音解码部,其用于从S解码重构出以及 模态对齐部,其用于在网络训练时对语音编码部、脑电编码部的输出基于对比学习进行时间步上的对齐,并计算出噪声对比估计损失LInfoNCE; 其中,多尺度多模态对齐网络在网络训练时使用的损失函数Ltotal为: Ltotal=LSI-SDR+α*LInfoNCE; 式中,LSI-SDR表示基于语音解码部输出而构建的尺度不变信号失真比损失;LInfoNCE表示噪声对比估计损失;α表示损失权重系数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经济技术开发区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励