买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种基于跨模态损失的目标语音分离方法及系统,本发明利用预训练后的目标语音分离模型,基于目标说话人唇部序列和混合音频信号,得到分离后的目标语音信号,通过在模型中引入目标说话人的视觉信息以提取视觉嵌入,采用自提取音频嵌入的方式代替预注册语音,引入跨模态损失约束说话人视觉和听觉特征的提取,能够避免目标混淆问题,构建两分支架构,获取干扰说话人语音信号转化为辅助信息,优化第一分支的语音提取,避免使用难以获取的辅助信息,提高目标语音分离实际应用场景的适应度。
主权项:1.一种基于跨模态损失的目标语音分离方法,其特征是,包括以下步骤:获取目标说话人视频,提取目标说话人唇部序列;获取混合音频信号;利用预训练后的目标语音分离模型,基于目标说话人唇部序列和混合音频信号,得到分离后的目标语音信号,且目标语音分离模型的训练过程考虑跨模态损失;所述目标语音分离模型在训练过程为两分支架构,其中:第一分支用于实现视听多模态目标语音提取,基于目标说话人唇部序列和混合音频信号,得到分离后的目标语音信号;所述第一分支包括音频编码器、视觉编码器、说话人提取器和音频解码器,其中:音频编码器从混合音频信号中提取音频嵌入,视觉编码器将目标说话人唇部序列编码为视觉嵌入;说话人提取器接收提取的音频嵌入和视觉嵌入输入,所述说话人提取器包括多层迭代的提取器块,每一个提取器块包括说话人编码器和掩膜估计器,所述说话人编码器在时间维度上拼接两个模态的嵌入,得到含有区分性身份信息的目标说话人嵌入,所述掩膜估计器根据视觉嵌入、目标说话人嵌入和上一层掩膜估计器的输出,得到目标说话人掩膜;所述音频解码器,基于目标说话人掩膜,得到目标语音信号;第二分支用于实现单模态干扰语音提取,基于第一分支的预估目标语音信号和混合音频信号,得到分离后的干扰语音信号,以获取的干扰语音信号作为辅助信息,通过跨模态损失影响第一分支目标语音的提取;所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器;所述第二分支仅存在于训练过程中;第二分支的音频编码器接收混合音频信号与第一分支中预估的目标语音信号的差值,说话人编码器仅接收音频嵌入,输出干扰说话人嵌入;第一分支和第二分支均具有音频编码器、音频解码器和说话人提取器;其中,音频编码器通过一维卷积实现将时域音频信号转换为音频特征序列,转换过程可以表示为: 其中,N是音频嵌入维度,T是音频采样总数,,L为一维卷积的卷积核大小;音频解码器执行重叠相加操作将音频特征序列重建为音频信号,解码过程为: 在目标语音分离模型的训练过程中,构建包含三个目标函数的多任务学习框架,第一分支的尺度不变信噪比损失用于衡量提取的目标语音和干净语音之间的质量,第二分支的尺度不变信噪比损失用于衡量提取的干扰语音和干净目标语音之间的质量,跨模态损失用于拉近目标视觉特征和预估目标语音信号音频特征,拉远目标视觉特征和预估干扰语音信号音频特征;损失定义如下所示; 跨模态损失同时影响两分支的训练过程,在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习,拉近正样本距离,拉远负样本距离,约束视觉和听觉特征的提取;其中,是比例因子,表示视觉特征和预估目标语音信号音频特征之间的余弦距离,表示视觉特征和预估干扰语音信号音频特征之间的余弦距离,,为两个距离之间的余量,设置为0.5;在目标语音分离算法中引入跨模态损失,在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习,利用视听一致性约束视觉和听觉特征的提取,将干扰说话人信息转化为辅助信息,优化第一分支的语音提取。
全文数据:
权利要求:
百度查询: 山东大学 一种基于跨模态损失的目标语音分离方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。