买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津大学
摘要:本发明公开了一种种基于通道权重感知的车内分布式麦克风音区分析方法,本发明通过预测每个分布式麦克风的权重,来表现每个分布式麦克风所在的区域对于车载语音增强等任务的重要程度。其使用多个分布式麦克风采集车内语音,而不是单麦克风或者集中式麦克风阵列,避免了如果噪声源离集中式麦克风阵列较近导致所有麦克风都受到噪声的严重污染以及声源距离集中式麦克风阵列较远导致所有麦克风拾音效果较差的问题,本发明的车内分布式麦克风音区分析方法能得到最佳麦克风组合,以此选择最佳的分布式麦克风放置方式,解决目前车内麦克风放置位置依赖人工经验的问题。
主权项:1.一种基于通道权重感知的车内分布式麦克风音区分析方法,其特征在于,包括以下步骤:S1,在车内不同位置一共选取M个用于接收语音的点位,每个点位设置一个分布式麦克风,将一个扬声器放置在车内不同位置、设置不同采集条件后分别播放纯净语音,每次播放纯净语音后M个分布式麦克风采集车内语音,每个分布式麦克风在每次采集时均得到一组音频数据,其中,纯净语音为干净语音;S2,对S1得到的每组音频数据进行裁剪,以使每组音频数据得到多条时长相同的带噪音频,全部音频数据得到的带噪音频的时长相同;每条带噪音频所对应纯净语音的部分为该带噪音频的标签;S3,对每条带噪音频先后依次进行分帧和加窗,再进行短时傅里叶变换,得到单通道音频时频谱特征,其中,单通道音频时频谱特征为能量值从频率和时间两个维度组成的二维矩阵,单通道音频时频谱特征的维度为F×T,F表示单通道音频时频谱特征中频率个数,T表示时间帧的帧数;S4,将基于M个分布式麦克风同一时段获得的M个单通道音频时频谱特征作为一个样本,将扬声器放置在车内各种位置、各种采集条件以及各种时间段下获得的全部样本作为数据集,将数据集内样本划分为训练集和测试集;S5,将训练集中每个样本的M个单通道音频时频谱特征在通道维度上进行拼接,以使训练集中每个样本形成一个多通道音频时频谱特征X,多通道音频时频谱特征X为能量值从通道、频率和时间三个维度组成的三维矩阵,多通道音频时频谱特征X的维度为C×F×T,C代表通道的个数,C=M;S6,包括:S6-1~S6-5:S6-1,将训练集中的样本输入时频注意力模块,时频注意力模块通过下述公式计算获得时间维度的注意力矩阵TA和频率维度的注意力矩阵FA: 其中,为时间维度的第一次二维卷积;为时间维度的第二次二维卷积; 为频率维度的第一次二维卷积;为频率维度的第二次二维卷积;δ为LeakyReLU激活函数;σ为Sigmoid激活函数;AvgTX为时间维度使用全局平均池化获取的时间上下文特征,AvgTX获得的方法为:将多通道音频时频谱特征X中每个单通道音频时频谱特征中在相同时间下的能量值求平均,以使多通道音频时频谱特征X转化成C×1×T维度的矩阵并作为AvgTX;AvgFX为频率维度使用全局平均池化获取的时间上下文特征,AvgFX的获得方法为:将多通道音频时频谱特征X中每个单通道音频时频谱特征中在相同频率下的能量值求平均,以使多通道音频时频谱特征X转化成C×F×1维度的矩阵并作为AvgFX;S6-2,使用张量乘法将TA和FA相乘,得到时频注意力地图TFA: 将时频注意力地图TFA与获得该时频注意力地图TFA的多通道音频时频谱特征X进行张量乘法,生成加权特征 其中,为维度为C×F×T的矩阵;S6-3,将加权特征输入通道注意力模块,通道注意力模块进行:将加权特征中每个通道的F×T个能量值求平均值,以使通过每个加权特征得到一个C×1维度的矩阵选取加权特征中每个通道中F×T个能量值中的最大值,并将M个通道的最大值组成一C×1维度的矩阵作为对和分别通过两个二维卷积层和LeakyReLU激活函数进行特征提取,依次得到特征向量WAvg和特征向量WMax,将特征向量WAvg和特征向量WMax相加并经过Sigmoid激活函数,得到通道权重CA: 其中,为通道维度的第一次二维卷积;为通道维度的第二次二维卷积;δ为LeakyReLU激活函数,σ为Sigmoid激活函数;S6-4,将通道权重CA和获得该通道权重CA的多通道音频时频谱特征X进行张量乘法后输入神经网络增强模块,由神经网络增强模块输出维度1×F×T维度的矩阵x,再经过逆短时傅里叶变换,得到第一单通道增强语音,其中,神经网络增强模块用于语音增强;S6-5,基于第一单通道增强语音和与该第一单通道增强语音相对应的标签,用均方误差损失函数进行训练,迭代至收敛,将均方误差损失函数所得损失最小时的一组通道权重作为[ω1,ω2…,ωM];S7,不同音区麦克风组合增强效果评估:S7-1,将[ω1,ω2…,ωM]中数值从大到小进行排列,再选取排列后前N个所对应的分布式麦克风作为麦克风组合,在测试集的每个样本中,将麦克风组合的单通道音频时频谱特征在通道维度进行拼接,得到音频时频谱特征X′,将音频时频谱特征X′输入神经网络增强模块,由神经网络增强模块输出1×F×T维度的矩阵x’,再经过逆短时傅里叶变换,得到第二单通道增强语音;S7-2,对不同N取值下获得第二单通道增强语音使用评价指标进行评价,评价指标最优的N所对应的麦克风组合为最佳麦克风组合,其中,评价指标为语音质量评价指标PESQ和或语音可懂度指标STOI。
全文数据:
权利要求:
百度查询: 天津大学 一种基于通道权重感知的车内分布式麦克风音区分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。