首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于卷积循环神经网络的音乐音频分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种基于卷积循环神经网络的音乐音频分类方法,所述方法包括以下步骤:S1、对音乐的音频进行标注得到音乐标注数据集;S2、对数据集采用音乐数据增强方法对训练数据进行增强;S3、将数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;S4、构建基于卷积循环神经网络的音乐音频分类模型;S5、将训练数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;S6、输入音乐对应的梅尔声谱,对音乐的标签进行预测。本发明所述的方法能提高网络对声谱特征的提取能力,得到更好的音乐整体特征表示,从而提高音乐音频分类的准确性。

主权项:1.一种基于卷积循环神经网络的音乐音频分类方法,其特征在于,所述方法包括以下步骤:S1、对音乐的音频进行标注以得到带有音乐标签的音乐标注数据集,将音乐标注数据集分为划分为训练集、验证集和测试集;S2、采用包括音频叠加、音频调速、音强调节、音调调节的音乐数据增强方法对训练集的数据进行增强;S3、将音乐标注数据集中音乐的音频信号进行分帧与加窗,通过短时傅里叶变换和梅尔尺度变换得到音频对应的梅尔声谱;S4、构建基于卷积循环神经网络的音乐音频分类模型,包括基于结合通道注意力机制的一维残差门控卷积神经网络的音乐表示学习、基于双向LSTM网络的音乐序列建模与基于注意力机制的序列特征聚合;具体的,所述基于卷积循环神经网络的音乐音频分类模型由音乐表示学习层、音乐序列建模与序列特征聚合层、全连接层构成;其中,音乐表示学习层包括若干个结合通道注意力机制的一维残差门控卷积块RGLU-SEblock,第一最大池化层和一维卷积层,其通过卷积神经网络对声谱中的光谱描述符spectro-temporaldescriptors进行学习,通过堆叠若干个结合通道注意力机制的一维残差门控卷积块RGLU-SEblock进行声谱局部特征的提取,配合池化操作进行特征降维,最后音乐表示学习层的一维卷积层输出的卷积特征图中包含音频信号中的高层抽象特征图;音乐表示学习层中的结合通道注意力机制的一维残差门控卷积块RGLU-SEblock主要由两个残差门控卷积单元、SE结构与第二最大池化层组成,其中残差门控卷积单元一维卷积层Conv1D中的感受野覆盖整个声谱的频率范围,将其与残差连接相结合,网络信息的流向为下式: σ=σConv1D2X上式的σ表示Sigmoid激活函数,信息的流向有以下两种方向:1以1-σ的概率不经过任何变换直接通过,对应式中的部分,其中X为声谱序列,表示按位相乘;2以σ的概率经过网络变换通过,对于卷积神经网络来说就是会进行卷积操作,与式中的相对应,其中Conv1D1X、Conv1D2X表示两个相同的一维卷积,但是权值不共享,σConv1D2X表示对Conv1D1X进行sigmoid激活操作;音乐序列建模与序列特征聚合层对卷积学习到的特征图进行进一步的学习,音乐序列建模与序列特征聚合层使用双向长短期记忆网络LSTM对卷积特征图进行序列建模,得到不同时刻的声谱序列特征;在该层中使用注意力机制对不同时刻的声谱序列特征进行聚合,音乐表示学习层的一维卷积层输出的卷积特征图经过音乐序列建模与序列特征聚合层将会得到音乐整体特征;全连接层对音乐整体特征包含的信息进行进一步的整合和筛选,通过基于多层感知机MLP的前馈神经网络FNN学习特征间的高阶交互关系,最终得到音乐音频的分类结果;S5、将经过步骤3的训练集的数据的梅尔声谱输入到基于卷积循环神经网络的音乐音频分类模型进行迭代训练;S6、输入音乐对应的梅尔声谱至训练获得的基于卷积循环神经网络的音乐音频分类模型,对音乐的标签进行预测。

全文数据:

权利要求:

百度查询: 华南理工大学 一种基于卷积循环神经网络的音乐音频分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。