买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统,首先对音频进行处理,得到音频的梅尔频谱图;然后基于梅尔频谱图的时间轴和频率轴计算,分别构造音色特征矩阵和时间特征矩阵,连接组成时频双域特征矩阵;再将其输入时频双域注意力模块进行信道加权和最大池化,最终得到音频的时频双域特征向量并将其输入分类器,得到音频的预测标签,之后计算预测标签和真实标签之间的损失,进行反向传播最小化损失。本发明通过加入监督性息,解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷;时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题,进一步提高了音频分类的准确性。
主权项:1.基于卷积神经网络的时频双域音频分类方法,其特征在于,包括如下步骤:1将音频数据转化为梅尔频谱图;2基于音频的梅尔频谱图来分别计算监督音色特征矩阵和监督时间特征矩阵,构造最终的时频双域特征矩阵;包括:基于梅尔频谱图的频率轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督音色特征矩阵;基于梅尔频谱图的时间轴,利用大小不同的卷积核对其进行特征提取,将每个卷积核的输出进行堆叠,组成监督时间特征矩阵;连接监督音色特征和监督时间特征,得到时频双域特征矩阵;3将基于梅尔频谱图的时频双域特征矩阵,进行平均池化后得到特征向量,对特征向量通过全连接层进行激励操作,关注信道信息得到不同的信道权重向量,将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量;4最后将时频双域特征向量输入softmax分类器,输出音频数据的分类结果;以交叉熵作为损失函数,通过反向传播最小化损失更新步骤2中的卷积核参数和步骤3中全连接层网络参数得到训练好的音频分类模型;步骤2中,监督音色特征提取的方法是:分别通过不同卷积层提取梅尔频谱图的特征,不同卷积层的卷积核大小不同,每个卷积层后连接一个最大池化层;各卷积层提取特征再经过最大池化层进行压缩后,纵向堆叠组成监督音色特征矩阵;监督时间特征提取的方法是:先通过最大池化层将梅尔频谱图压缩成一维时间向量,再分别通过不同卷积层提取特征后,纵向堆叠组成监督时间特征矩阵;所述时频双域特征矩阵其中S=A+E,是监督音色特征矩阵,是监督时间特征矩阵,F为音频数据预处理后梅尔频谱图的帧数,A和E分别为用于提取监督音色特征和监督时间特征的卷积核个数;所述步骤3具体包括:首先,将时频双域特征矩阵FFi输入平均池化层,对行向量进行平均池化,得到压缩向量将S视为信道数;ffi=AvePoolingFFiAvePoolingFFi表示对FFi进行平均池化操作;然后,将ffi作为两个连续的全连接层的输入,计算出每个信道的权重:qi=W1ffi+b1ffi′=W2qi+b2qi,ffi′分别表示第一、二个全连接层的输出;W1,W2分别表示第一、二个全连接层的权重矩阵;b1,b2分别表示第一、二个全连接层的偏置,它们均使用随机初始化,在训练过程中会根据损失函数反向传播不断自动优化;最后,权重向量ffi′与输入作乘法,得到输出特征向量Ui=diagffi′×FFiui=MaxPoolingUidiagffi′表示将向量ffi′变成对角阵;MaxPoolingUi表示对Ui进行最大池化操作。
全文数据:
权利要求:
百度查询: 扬州大学 基于卷积神经网络的时频双域音频分类方法与系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。