基于卷积神经网络的时频双域音频分类方法与系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于卷积神经网络的时频双域音频分类的方法与系统，首先对音频进行处理，得到音频的梅尔频谱图；然后基于梅尔频谱图的时间轴和频率轴计算，分别构造音色特征矩阵和时间特征矩阵，连接组成时频双域特征矩阵；再将其输入时频双域注意力模块进行信道加权和最大池化，最终得到音频的时频双域特征向量并将其输入分类器，得到音频的预测标签，之后计算预测标签和真实标签之间的损失，进行反向传播最小化损失。本发明通过加入监督性息，解决了原有随机化网络因缺少监督机制导致初始化权重方法不可靠且过分依赖模型结构本身的缺陷；时频双域注意力模块也很好的解决了平均池化会导致部分信道信息丢失的问题，进一步提高了音频分类的准确性。

主权项：1.基于卷积神经网络的时频双域音频分类方法，其特征在于，包括如下步骤：1将音频数据转化为梅尔频谱图；2基于音频的梅尔频谱图来分别计算监督音色特征矩阵和监督时间特征矩阵，构造最终的时频双域特征矩阵；包括：基于梅尔频谱图的频率轴，利用大小不同的卷积核对其进行特征提取，将每个卷积核的输出进行堆叠，组成监督音色特征矩阵；基于梅尔频谱图的时间轴，利用大小不同的卷积核对其进行特征提取，将每个卷积核的输出进行堆叠，组成监督时间特征矩阵；连接监督音色特征和监督时间特征，得到时频双域特征矩阵；3将基于梅尔频谱图的时频双域特征矩阵，进行平均池化后得到特征向量，对特征向量通过全连接层进行激励操作，关注信道信息得到不同的信道权重向量，将权重向量与时频双域特征矩阵作信道乘法后再进行最大池化操作后得到时频双域特征向量；4最后将时频双域特征向量输入softmax分类器，输出音频数据的分类结果；以交叉熵作为损失函数，通过反向传播最小化损失更新步骤2中的卷积核参数和步骤3中全连接层网络参数得到训练好的音频分类模型；步骤2中，监督音色特征提取的方法是：分别通过不同卷积层提取梅尔频谱图的特征，不同卷积层的卷积核大小不同，每个卷积层后连接一个最大池化层；各卷积层提取特征再经过最大池化层进行压缩后，纵向堆叠组成监督音色特征矩阵；监督时间特征提取的方法是：先通过最大池化层将梅尔频谱图压缩成一维时间向量，再分别通过不同卷积层提取特征后，纵向堆叠组成监督时间特征矩阵；所述时频双域特征矩阵其中S＝A+E,是监督音色特征矩阵，是监督时间特征矩阵,F为音频数据预处理后梅尔频谱图的帧数，A和E分别为用于提取监督音色特征和监督时间特征的卷积核个数；所述步骤3具体包括：首先，将时频双域特征矩阵FFi输入平均池化层，对行向量进行平均池化，得到压缩向量将S视为信道数；ffi＝AvePoolingFFiAvePoolingFFi表示对FFi进行平均池化操作；然后，将ffi作为两个连续的全连接层的输入，计算出每个信道的权重：qi＝W1ffi+b1ffi′＝W2qi+b2qi,ffi′分别表示第一、二个全连接层的输出；W1,W2分别表示第一、二个全连接层的权重矩阵；b1,b2分别表示第一、二个全连接层的偏置，它们均使用随机初始化，在训练过程中会根据损失函数反向传播不断自动优化；最后，权重向量ffi′与输入作乘法，得到输出特征向量Ui＝diagffi′×FFiui＝MaxPoolingUidiagffi′表示将向量ffi′变成对角阵；MaxPoolingUi表示对Ui进行最大池化操作。

全文数据：

权利要求：

百度查询：扬州大学基于卷积神经网络的时频双域音频分类方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：5G网络资源动态调整方法

下一篇：一种可收集废料的雕塑加工底座

相关技术

5G网络资源动态调整方法

一种可收集废料的雕塑加工底座

一种隐形眼镜PP杯

一种酸碱液回收利用装置

一种具有碰撞缓冲功能的检测浮标

一种立式多轴多工位针阀体中孔座面大端面磨床

北美型猪繁殖与呼吸综合征病毒囊膜主要糖蛋白GP5的保守中和表位QT7、核酸分子、表达载体、中和抗体及其应用

一种便于滑道清理的铝合金门窗

一种蓄电池安装架

一种自增压式便携蒸箱密封机构

一种建筑造价测绘装置

一种无土栽培排水槽的支撑调节支架

域相关技术

抗原结合结构域及其使用方法_森迪生物科学公司_202380034192.5

一种跨域信任管理平台_东南大学_202311469533.X

一种基于微波域和光域解调的压力和温度分布式同时测量装置及方法_天津大学_202410791312.2

一种省域旅游业发展质量的综合评价方法及系统_合肥工业大学_202411074985.2

基于可信执行环境的跨域安全多方计算的方法及装置_杭州煋辰数智科技有限公司_202110833138.X

基于多模态域不变特征的电子负载MOS管寿命预测方法_湖南恩智测控技术有限公司_202411455048.1

用于存储器扩增域自适应的系统和方法_通用电气公司_201980060218.7

一种电磁信号识别模型对抗域泛化防御方法_哈尔滨工程大学_202310477430.1

多域控集成测试方法、系统、装置、电子设备及存储介质_重庆长安科技有限责任公司_202411072585.8

复杂源域图像集下的3D地图重构的方法和系统_上海交通大学_202411023003.7

时频相关技术

基于卷积神经网络的时频双域音频分类方法与系统_扬州大学_202210560557.5

基于深度学习的单通道时频混叠干扰信号消除方法及系统_杭州电子科技大学_202411107767.4

时频三维综合电法探测系统及找矿方法_中国有色桂林矿产地质研究院有限公司_202411255888.3

基于天文时频图像的射频干扰识别方法、系统_昆明理工大学_202410871662.X

一种基于声发射波形时频特征的混凝土应力状态识别方法_同济大学_202411087133.7

时隙同步方法、时隙分配方法、通信方法及其系统_北京智芯半导体科技有限公司_202411480890.0

网络时延确定方法、端到端时延确定方法及电子设备_深圳市网心科技有限公司_202411033234.6

一种时控开关_乐清市一锦电子有限公司_202411221036.2

一种一氯频哪酮生产装置_酒泉市尚上化工有限公司_202323639401.5

一种小尺寸的多频天线_摩比天线技术(深圳)有限公司_202411166256.X

音频相关技术

音频外放方法和音频外放系统_维沃移动通信有限公司_202411109149.3

音频训练_科利耳有限公司_202411098692.8

汽车功放的音频测试系统及音频测试方法_苏州爱情之音科技有限公司_202310548559.7

音频播放设备_杭州海康威视数字技术股份有限公司_202420194593.9

音频系统_奥利弗·奥德修斯·舒斯特_202380029255.8

音频处理方法和装置_维沃移动通信有限公司_202210653760.7

一种车内音频场景自适应调整方法及音频系统_中国第一汽车股份有限公司_202210715268.8

一种基于音频重构的汽车引擎音频处理方法、装置、设备及介质_拾音汽车科技(上海)有限公司_202411098334.7

一种音频系统及音频系统的控制方法_重庆赛力斯凤凰智创科技有限公司_202410748149.1

音频链路系统及其方法_哈曼国际工业有限公司_202310560446.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于卷积神经网络的时频双域音频分类方法与系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务