买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:厦门大学
摘要:一种基于深度学习的多声部音乐人声主旋律提取方法,涉及深度学习领域和音频信号处理领域。包括以下步骤:1基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;2基于多分类神经网络进行音高估算:将步骤1预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高。集合传统方法中对音频特征分析的优势,能较好地提取出音频的音高显著性特征,同时结合深度学习的先进方法,搭建神经网络训练模型,在预测结果时比传统的计算方法要更加快速高效。
主权项:1.一种基于深度学习的多声部音乐人声主旋律提取方法,其特征在于包括以下步骤:1基于音高显著性的多声部音乐音频信号预处理:利用显著性函数中谐波求和,通过频谱图分析、相位谱计算、显著性图谱计算、归一化处理的步骤获得输入神经网络的数据特征;2基于多分类神经网络进行音高估算:将步骤1预处理方法中得出的显著性图谱作为神经网络的输入,通过一个用于分类的神经网络来估算逐帧的音高;所述基于多分类神经网络进行音高估算的具体步骤为:1标注处理:将多声部音乐人声旋律的提取作为一个分类问题,将连续的基频F0值量化为600个类,将音高范围设定从A1到A6之间的五个八度60个半音,即从55hz到1760hz的频率范围,覆盖常规的人声可达到音域,分辨率为110半音;另外添加一个类来表示非人声状态,共601个分类;将训练集的标注处理为两组数据,第一个数据将每帧对应的频率转化为601个类别的音高,表示为一个one-hot向量,使用分类交叉熵计算损失函数,第二个数据将每帧对应的频率处理为表示人声帧非人声帧的10标签,使用二分类交叉熵计算损失函数;2网络结构:负责音高估算的联合神经网络由1个卷积模块ConvBlock,2个ResNeXtBlock和1个池化模块PoolBlock组成,中间引入CBAM注意力机制模块,自适应地学习特征的权重分配,顶层加入一个双向长短期记忆神经网络Bi-LSTM来预测音高的输出;其中ConvBlock由两个3×3卷积层,一个激活函数LReLU层和一个批量归一化BN层组成的模块;PoolBlock是另一个由BN层、LReLU层、最大池化层组成的模块;ResNeXtBlock包含ConvBlock的结构,一个额外的LReLUBN层,一个池化大小为4的MaxPool层和一个跳跃连接skipconnection,根据ResNeXt网络原理构建;CBAM注意力机制包括空间注意力模块SAM和通道注意力模块CAM两个子模块,分别汇总空间和通道两方面的注意力信息,并将信息进行一定程度的综合;3损失函数:将音高多分类损失与语音检测损失相结合,计算出最终的损失函数L合计为:
全文数据:
权利要求:
百度查询: 厦门大学 一种基于深度学习的多声部音乐人声主旋律提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。