买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:百鸟数据科技(北京)有限责任公司
摘要:本发明涉及语音处理技术领域,具体涉及基于神经网络的野生生态环境鸟类鸣声识别方法,该方法包括:采集纯声鸟鸣信号,根据纯声鸟鸣信号的频域特征获取各帧鸟鸣信号的谱熵时延同步系数,根据鸟鸣信号的自相关性得到各帧鸟鸣信号的窗口长时延稳定系数,结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,获取两坐标点之间的分割结果相似度,结合窗内多时延周期指数及分割结果相似度得到各采集时刻的卷积可分割程度,进而得到各帧鸟鸣信号的滑动三维卷积平滑度,确定各组卷积的滑动步长。本发明旨在提高鸟类鸣声的识别率,实现基于滑动窗口以及3D卷积的鸟类鸣声精确识别。
主权项:1.基于神经网络的野生生态环境鸟类鸣声识别方法,其特征在于,该方法包括以下步骤:采集鸟鸣信号;将各帧鸟鸣信号的频谱图作为各帧鸟鸣信号的特征图像;将鸟鸣信号划定多个矩形短时窗口;根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的差异得到各帧鸟鸣信号的谱熵时延同步系数;根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的峰值幅度分布得到各帧鸟鸣信号的窗口长时延稳定系数;结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数;将二维特征图像添加时间维度转换为三维特征图像;获取各时刻对应的平面特征图像上两坐标点间的分割结果相似度;结合分割结果相似度及窗内多时延周期指数得到各时刻对应平面特征图像的卷积可分割程度;根据矩形短时窗口内所有帧鸟鸣信号对应时刻平面特征图像的卷积可分割程度的分布得到各帧鸟鸣信号的时序平滑度;结合各时刻的卷积可分割程度及各帧鸟鸣信号的时序平滑度得到各帧鸟鸣信号的滑动三维卷积平滑度;根据各帧鸟鸣信号频谱图的频率分布及滑动三维卷积平滑度得到3D卷积核的卷积组个数;结合3D卷积核的卷积组个数及神经网络模型完成鸟类鸣声识别;所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的差异得到各帧鸟鸣信号的谱熵时延同步系数,包括:对鸟鸣信号利用VAD端点检测算法获取鸟鸣信号的有声信号区间,将所有有声信号区间的区间长度最小值作为计算自相关函数时的时延上限,针对各矩形短时窗口,计算各帧鸟鸣信号在不同时间延迟下的自相关函数,获取自相关函数峰值的位置、宽度及幅度,将鸟鸣信号进行傅里叶变换,计算各帧鸟鸣信号的谱熵;各帧鸟鸣信号的谱熵时延同步系数的表达式为: 式中,是第a帧鸟鸣信号的谱熵时延同步系数,是以自然常数为底数的指数函数,是矩形短时窗口内第a帧鸟鸣信号的谱熵,是矩形短时窗口内第a帧鸟鸣信号在时延上限时对应自相关函数峰值的宽度,、分别是矩形短时窗口内所有帧鸟鸣信号的谱熵最大值、最小值,、分别是矩形短时窗口内所有帧鸟鸣信号在时延上限时对应自相关函数峰值的宽度最大值、最小值;所述根据各矩形短时窗口内各帧鸟鸣信号在不同时延下自相关函数的峰值幅度分布得到各帧鸟鸣信号的窗口长时延稳定系数,表达式为: 式中,是第a帧鸟鸣信号的窗口长时延稳定系数,N是第a帧鸟鸣信号所属矩形短时窗口内帧的数量,、分别是第a帧鸟鸣信号、第b帧鸟鸣信号在时延上限的范围内所有时延下自相关函数峰值的幅度按照时延尺度升序组成的峰值幅度序列,是最小值函数,是值方差函数,表示分别计算序列、相同次序下元素之间的值方差,、分别是序列、内元素的变异系数;所述结合谱熵时延同步系数及窗口长时延稳定系数得到各帧鸟鸣信号的窗内多时延周期指数,包括:针对各矩形短时窗口内的各帧鸟鸣信号,计算窗口长时延稳定系数与谱熵时延同步系数的乘积,计算第一个时延下的自相关函数峰值对应频率下的梅尔倒谱系数与其他所有时延下的自相关函数峰值对应频率下的梅尔倒谱系数的差值,计算所有时延下所述差值的和值,计算所述和值与预设调参因子的和值,记为第一和值,将所述乘积与所述第一和值的比值作为各帧鸟鸣信号的窗内多时延周期指数。
全文数据:
权利要求:
百度查询: 百鸟数据科技(北京)有限责任公司 基于神经网络的野生生态环境鸟类鸣声识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。