首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:青岛科技大学

摘要:本发明公开基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法,属于音频处理与生成技术领域。其方法对海洋哺乳动物叫声数据进行小波去噪处理提高音频质量;将经过降噪的叫声转换为梅尔谱图进行表示,形成数据集;设计叫声生成网络,在该网络中引入代表海洋哺乳动物种类的标签变量,引导生成器生成指定类型的数据,将改进的Inception块通过在同一层级内使用不同尺寸的卷积核来提取不同感受野下的特征。设计损失函数;使用WaveGlow作为声码器将生成的梅尔谱图重构回高质量音频信号;设计分类实验评估本文方法的有效性。本发明实现了海洋哺乳动物叫声数据增强,有效提高了分类模型的预测精度。

主权项:1.基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法,其特征在于:所述方法依次包括以下步骤:S1:对海洋哺乳动物叫声数据进行去噪预处理提高音频质量;S2:利用MFCC进行特征提取,将经过降噪的叫声转为原始梅尔谱图进行表示,得到音频信号的梅尔谱图作为特征表示,形成数据集,包括训练集和测试集;S3:搭建基于改进的Inception块与SACGAN的叫声生成网络,设计损失函数,在该叫声生成网络中引入代表海洋哺乳动物种类的标签变量,使用步骤S2中的训练集训练该叫声生成网络、并引导生成器生成指定种类的新的梅尔谱图;所述搭建基于改进的Inception块与SACGAN的叫声生成网络包括设计生成器网络和设计判别器网络,同时在两个Inception块中间加入自注意力模块帮助模型学习输入数据的内在结构和模式,增强模型的特征表示能力,提高生成样本的质量;所述改进的Inception块由四条支路组成,将一个3x3的卷积分解为一个1x3的卷积和一个3x1的卷积,具体包括:第一条支路由一层1×1卷积和两层3×3卷积组成,第二条支路由一层1×1卷积、一层1×3卷积与一层3×1卷积组成,第三条支路由一层池化层与一层1×1卷积组成,第四条支路由一层1×1卷积组成;S3-1:设计生成器网络:生成器输入为一个随机噪声与一个代表海洋哺乳动物种类的标签变量,生成指定种类的梅尔谱图,提高模型的应用灵活性;具体网络由Embedding层、全连接层、反卷积层、改进的Inception块、一层自注意力模块以及卷积层组成;离散的标签变量经过Embedding层升维后转换为连续向量,然后与随机噪声拼接,帮助模型更好地理解输入数据;改进的Inception块的第三条支路中,使用平均池化层,该平均池化层是将输入的图像划分为若干个矩形区域,对每个子区域输出所有值的平均值,其表示为: (1)式中,表示第个特征图有关的矩形区域平均池化输出值,表示矩形区域位于p,q位置的数值,表示矩形区域中元素的个数;S3-2:设计判别器网络:判别器输入为一个真实样本与条件变量或者一个生成样本与条件变量;具体网络由四层Inception块、一层Residual块、一层池化层、一个自注意力模块和一层全连接层组成;Residual块由两个卷积层、两个批标准化层、一个激活层组成,通过跳跃连接的方式传播梯度信息,更好地保持网络中的信息流动,减少梯度消失问题,提高训练稳定性;Residual块中卷积操作后增加批标准化层能够将越来越偏的数据分布标准化的合理的区间,使大部分激活值都能够分布在各个区间,可有效避免神经网络随着层数加深而出现的梯度消失问题,加快学习收敛的速度,标准化公式为: (2) (3) (4) (5)式中,μ表示批处理数据的均值,Nbat表示批量值,xn表示数据张量,σ2为批处理数据的方差,表示标准化后的数据,x表示原始数据,ε表示常量,防止公式中出现除零,yn为批标准化后的数据,γ为缩放因子,β为偏移因子;同时,在池化操作后引入自注意力模块,使模型自适应地选择最关键的特征通道,增强了特征表示能力,使模型同时拥有低维的主要特征信息和丰富的细节信息;S3-3:设计损失函数:采用Wasserstein距离作为损失函数,有效防止训练过程中容易出现的模式崩溃问题,并在判别器损失函数中加入梯度惩罚项,确保判别器函数满足Lipschitz连续性约束,有效避免训练过程中出现梯度爆炸或消失问题,提高训练稳定性与模型收敛速度;生成器损失函数为: 6式中,Pz表示生成器生成样本的数据分布,z为Pz中随机采样的噪声向量,y为条件变量,Gz|y是在给定条件y的情况下,生成器G生成的假样本,DGz|y是判别器D对假样本的评价,E是期望值,该公式希望最大生成样本被判别器判断为真实样本的期望值;判别器损失函数为: 7 8式中,Pr表示真实样本的数据分布,x为Pr中的样本,λ为梯度惩罚项权重,GP为梯度惩罚项,为真实样本x与生成样本z之间的随机插值,表示梯度惩罚项的抽样分布,表示在判别器下的梯度范数,目的是确保判别器函数的梯度范数接近1,满足Lipschitz约束;判别器D的目标是最大化对真实样本的评价;S4:使用WaveGlow将步骤S3生成的梅尔谱图重构为高质量音频信号。

全文数据:

权利要求:

百度查询: 青岛科技大学 基于改进Inception块与SACGAN的海洋哺乳动物叫声数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。