买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供了一种机械设备多模态声源智能分离方法,该方法包括:对机械设备音视频多模态数据进行处理,得到机械设备视觉图像和音频频谱图;构建多模态声源智能分离网络模型;将视觉图像和音频频谱图输入网络模型并训练,得到机械设备视觉图像对应的音频频谱图掩码,根据音频频谱图掩码确定出对应的机械设备音频频谱图,从而根据机械设备图像分离对应音频信号。本发明的有益效果:根据机械设备视觉图像分离对应声源信号,该方法可解决基于音频信号的单模态盲源分离方法分离机械设备声源结果无序的问题。
主权项:1.一种机械设备多模态声源智能分离方法,其特征在于:所述机械设备指一些部件或本身可进行不同形式机械运动的机械装置;所述多模态指机械设备在工作过程中产生的不同类型数据,如视频数据、音频数据;所述声源指机械设备工作时发出音频信号的位置;所述智能分离指构建智能分离网络模型,根据机械设备的视觉图像,从机械设备工作产生的混合音频中自动分离出对应设备的音频信号;所述智能分离网络模型包括视觉特征提取模块、音频特征提取模块和特征融合模块;所述视觉特征提取模块是具有多尺度特征提取能力的Res2Net18网络,包括卷积层、池化层、多尺度残差块,视觉特征提取模块提取视频图像特征并发送给特征融合模块;所述音频特征提取模块是具有坐标注意力机制的CA-UNet网络,在UNet网络中引入坐标注意力机制模块替换编码器与解码器之间的直接跳跃连接,音频特征提取模块提取混合音频特征并发送给特征融合模块;所述特征融合模块是接收视觉特征与混合音频特征并按特定规则进行计算的模块,通过计算得到视觉特征对应的掩码,再利用掩码与混合音频进行哈达玛积运算生成视觉特征对应的频谱;一种机械设备多模态声源智能分离方法,包括以下步骤:S01、构建机械设备多模态声源智能分离网络模型;S02、随机选择2个机械设备的音视频多模态数据M1和M2;S03、分别从M1和M2中提取音频信号A1和A2;S04、将A1和A2混合得到混合音频信号Amix;S05、分别从M1和M2中随机抽取3帧图像V1和V2;S06、对Amix、A1和A2短时傅里叶变换,得到混合音频频谱图Smix、单一音频频谱图SA1和SA2;S07、将Smix、V1和V2作为网络模型的输入,将SA1和SA2作为网络模型的输出,对网络模型进行训练;S08、采集混合了2个设备的音频信号An、预设长度的对应设备工作视频Vn1和Vn2;S09、将An通过短时傅里叶变换得到混合音频频谱Sn;S10、分别从Vn1和Vn2中随机抽取3帧图像Pn1和Pn2;S11、将Sn、Pn1和Pn2送入训练好的网络模型;S12、网络模型输出Vn1和Vn2对应设备的声源频谱An1和An2;S13、将An1和An2逆短时傅里叶变换转换为时域波形信号,实现根据视觉图像从混合音频信号智能分离对应音频信号。
全文数据:
权利要求:
百度查询: 西南科技大学 一种机械设备多模态声源智能分离方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。