上海理工大学倪仁倢获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海理工大学申请的专利一种针对音频的数据扩增方法及实时声音事件检测系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115019760B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210557704.3,技术领域涉及:G10K11/178;该发明授权一种针对音频的数据扩增方法及实时声音事件检测系统及方法是由倪仁倢;刘臣;周立欣设计研发完成,并于2022-05-19向国家知识产权局提交的专利申请。
本一种针对音频的数据扩增方法及实时声音事件检测系统及方法在说明书摘要公布了:本发明公开了一种针对音频的数据扩增方法及实时声音事件检测系统及方法,包括:建立两个深度学习模型,所述深度学习模型包括预唤醒模型和检测模型;通过一系列音频变换对音频数据进行变形,获得变形后的音频;从所述变形后的音频中提取出频谱特征;对所述的频谱特征进行随机掩蔽,得到数据扩增后的数据;使用所述的数据扩增后的数据,训练所述声音事件检测方法中的深度学习模型,并保存训练后的模型;使用麦克风实时录制音频流,将音频流切片后送入所述的训练后的模型进行检测,得到检测的结果。根据本发明,快速并且准确地反馈出需要检测的声音事件,并且该方法中模型的参数量和占用内存较小,具备移动端使用条件。
本发明授权一种针对音频的数据扩增方法及实时声音事件检测系统及方法在权利要求书中公布了:1.一种针对音频的数据扩增方法及实时声音事件检测方法,其特征在于, 包括检测系统,所述检测系统包括深度学习模型,所述深度学习模型包括处理模块、预唤醒模块及检测模块,所述处理模块用于对音频数据进行变形,从变形后的音频中提取频谱特征,所述处理模块用于将原始音频数据进行音频转换,提取转换后音频的频谱特征并进行随机频谱掩蔽; 所述预唤醒模块与检测模块分别需要进行训练,所述预唤醒模块进行训练后对预唤醒模块进行保存,且所述预唤醒模块通过多层卷积神经网络所组成的轻量化深度学习模型,首先使用1×1的逐点卷积进行升维;其次使用3×3的卷积核进行深度可分离卷积,使用池化操作进一步缩小数据量;引入轻量级的SE注意力机制,来调整每个通道的权重,使用逐点卷积进行降维;此外当输入维度和输出维度相等时,可以进行跳跃链接; 所述检测模块进行训练后对检测模块进行保存,所述检测模块通过多层卷积神经网络所组成;通过将少量原始特征数据经过简单的线性变换后作为中间层的特征,删去偏置向量以减少计算复杂度;使用两个Ghost模块组成GhostbottleneckG-bneck第一个Ghost模块用来扩展通道数,第二个Ghost模块用以减少通道数,当通道数相同时则可以进行跳跃链接;每个Ghost模块后,都伴有批归一化BatchNormalization,BN,第二个Ghost模块后不使用ReLU进行激活;另外当卷积步长为2时,在Ghost模块中嵌入一个深度可分离卷积; 该方法具体包括以下步骤: S1、建立深度学习模型,包括预唤醒模块和检测模块; S2、通过一系列音频变换对音频数据进行变形,得到变形后的音频; S3、从变形后的音频中提取频谱特征,并对频谱进行掩蔽,得到数据扩增后的结果; S4、使用所述数据扩增后的结果,训练所述预唤醒模块和检测模块,并保存训练后的预唤醒模块和检测模块; S5、通过使用麦克风录制音频流,并将音频流切片后,输入所述训练后的预唤醒模块,得到预唤醒模块的输出概率; S6、当所述的预唤醒模块的输出概率大于预设唤醒阈值,或者当检测到音量波动时,激活所述检测模块进行检测,得到检测模块的输出概率; S7、当所述的检测模块输出某个类别的概率大于预设检测阈值时,返回检测结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海理工大学,其通讯地址为:200093 上海市杨浦区军工路516号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。