一种基于卷积循环神经网络的音乐音频分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华南理工大学

摘要：本发明公开了一种基于卷积循环神经网络的音乐音频分类方法，所述方法包括以下步骤：S1、对音乐的音频进行标注得到音乐标注数据集；S2、对数据集采用音乐数据增强方法对训练数据进行增强；S3、将数据集中音乐的音频信号进行分帧与加窗，通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱；S4、构建基于卷积循环神经网络的音乐音频分类模型；S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练；S6、输入音乐对应的梅尔声谱，对音乐的标签进行预测。本发明所述的方法能提高网络对声谱特征的提取能力，得到更好的音乐整体特征表示，从而提高音乐音频分类的准确性。

主权项：1.一种基于卷积循环神经网络的音乐音频分类方法，其特征在于，所述方法包括以下步骤：S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集，将音乐标注数据集分为划分为训练集、验证集和测试集；S2、采用包括音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练集的数据进行增强；S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗，通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱；S4、构建基于卷积循环神经网络的音乐音频分类模型，包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合；具体的，所述基于卷积循环神经网络的音乐音频分类模型由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成；其中，音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块RGLU-SEblock，第一最大池化层和一维卷积层，其通过卷积神经网络对声谱中的光谱描述符spectro-temporaldescriptors进行学习，通过堆叠若干个结合通道注意力机制的一维残差门控卷积块RGLU-SEblock进行声谱局部特征的提取，配合池化操作进行特征降维，最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图；音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块RGLU-SEblock主要由两个残差门控卷积单元、SE结构与第二最大池化层组成，其中残差门控卷积单元一维卷积层Conv1D中的感受野覆盖整个声谱的频率范围，将其与残差连接相结合，网络信息的流向为下式： σ＝σConv1D2X上式的σ表示Sigmoid激活函数，信息的流向有以下两种方向：1以1-σ的概率不经过任何变换直接通过，对应式中的部分，其中X为声谱序列，表示按位相乘；2以σ的概率经过网络变换通过，对于卷积神经网络来说就是会进行卷积操作，与式中的相对应，其中Conv1D1X、Conv1D2X表示两个相同的一维卷积，但是权值不共享，σConv1D2X表示对Conv1D1X进行sigmoid激活操作；音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步的学习，音乐序列建模与序列特征聚合层使用双向长短期记忆网络LSTM对卷积特征图进行序列建模，得到不同时刻的声谱序列特征；在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合，音乐表示学习层的一维卷积层输出的卷积特征图经过音乐序列建模与序列特征聚合层将会得到音乐整体特征；全连接层对音乐整体特征包含的信息进行进一步的整合和筛选，通过基于多层感知机MLP的前馈神经网络FNN学习特征间的高阶交互关系，最终得到音乐音频的分类结果；S5、将经过步骤3的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练；S6、输入音乐对应的梅尔声谱至训练获得的基于卷积循环神经网络的音乐音频分类模型，对音乐的标签进行预测。

全文数据：

权利要求：

百度查询：华南理工大学一种基于卷积循环神经网络的音乐音频分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种面向单层隔振系统的惯容器设计方法

下一篇：一种缺陷检测方法和相关设备

相关技术

一种面向单层隔振系统的惯容器设计方法

一种缺陷检测方法和相关设备

用于烯烃生产的配置

谐振式电源供应器的同步整流控制方法

流媒体推流方法、流媒体推流系统和存储介质

一种数据传输方法、装置、设备及计算机可读存储介质

一种桩基注浆用浆料搅拌设备

一种接地故障线路辨识方法、系统、装置及存储介质

基于空间差分技术的动作捕捉方法和系统

一种基于FIFO处理CAN通信消息的优化系统及方法

一种用于汽车变速箱悬架的压铸模具

定子组件、电机、压缩机和制冷设备

网络相关技术

图神经网络的加速方法以及图神经网络加速结构_苏州元脑智能科技有限公司_202410693570.7

移动网络中基于网络切片的安全性_帕洛阿尔托网络公司_201980070161.9

无源光网络系统的时间敏感网络实现方法、设备和介质_中兴通讯股份有限公司_202310357696.2

光网络检测方法、光收发组件、光网络设备_中兴通讯股份有限公司_202210849524.2

基于双网络交替的网络负载配置方法、装置、设备和介质_中国人民解放军国防科技大学_202411024543.7

神经网络处理方法、神经网络及自然语言处理方法_武汉星纪魅族科技有限公司_202410843469.5

经由计算机网络分发统一图像的网络和速度增强_电子湾有限公司_202110259865.X

网络信息开放方法及相关设备_腾讯科技(深圳)有限公司_202110902447.8

一种网络监控设备_中国联合网络通信集团有限公司_202323406589.9

计算机网络机柜_孙艳_202323497225.6

音乐相关技术

音乐教学用节拍器_郑州信息科技职业学院_202322934444.X

一种音乐识别模型的训练方法、音乐识别方法及相关设备_腾讯科技(深圳)有限公司_202411170712.8

一种与车载音乐同步的氛围灯_重庆豪然汽车零部件(集团)有限公司_202323536872.3

基于音乐类别的场景确定方法和装置_北京经纬恒润科技股份有限公司_202410718335.0

一种具有音乐播放挂脖式风扇_严乐乐_202420488789.9

一种EL闪动发光音乐控制盒_深圳劲嘉新型智能包装有限公司_202010912600.0

音乐匹配方法、装置、计算机设备及存储介质_广州酷狗计算机科技有限公司_202110837757.6

一种基于大数据的音乐短视频图像制作系统_牡丹江师范学院_202410891508.9

基于音乐的舞蹈动作合成方法、装置、设备、介质及产品_腾讯科技(深圳)有限公司_202310356078.6

一种基于特征提取的音乐数据库检索方法及系统_岭南师范学院_202410727871.7

神经相关技术

植入式神经刺激器和植入式神经刺激系统_景昱医疗科技(苏州)股份有限公司_202111246300.4

图神经网络的加速方法以及图神经网络加速结构_苏州元脑智能科技有限公司_202410693570.7

用于刺激外周神经的装置_上海杉翎医疗科技有限公司_202410773769.0

神经网络加速器_三星电子株式会社_201980014141.X

人工智能神经义肢手_明尼苏达大学董事会_202280077069.7

使用神经刺激和血压及肾血液速度测量值引导的肾脏去神经以及相关系统_皇家飞利浦有限公司_202380017794.X

神经网络处理单元及包括该神经网络处理单元的片上系统_三星电子株式会社_201910018283.5

基于神经网络的图像放大方法、神经网络加速器及电子设备_深圳市九天睿芯科技有限公司_202410976370.2

深度学习神经网络储存与推论方法_慧通智联股份有限公司_202110673578.3

一种神经重症患者术后护理装置_兰州大学第二医院_202323667568.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于卷积循环神经网络的音乐音频分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务