首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于机器学习的婴幼儿哭声增强方法、装置及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波星巡智能科技有限公司

摘要:本发明涉及音频处理技术领域,解决了现有技术中收集到的婴幼儿哭声受限于杂音的干扰,难以准确区分和提取出有效婴幼儿哭声的问题,提供了一种基于机器学习的婴幼儿哭声增强方法、装置及设备。该方法包括:获取第一音频数据,其中,所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据;对所述第一音频数据进行预处理,得到第一音频数据对应的频谱图;将所述频谱图输入自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息;根据所述音频特征信息,对含有婴幼儿哭声的音频数据进行处理,得到增强后的第二音频数据。本发明有效地从嘈杂环境中提取并增强了婴幼儿哭声,显著提高了哭声信号的纯净度和识别率。

主权项:1.一种基于机器学习的婴幼儿哭声增强方法,其特征在于,所述方法包括:获取第一音频数据,其中,所述第一音频数据包括至少一段含有婴幼儿哭声的音频数据;对所述第一音频数据进行预处理,得到第一音频数据对应的频谱图;将所述频谱图输入自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息;根据所述音频特征信息,对含有婴幼儿哭声的音频数据进行处理,得到增强后的第二音频数据;其中,所述将所述频谱图输入自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息包括:将所述频谱图进行标准化处理,得到标准化频谱图,其中,所述标准化处理方式采用高斯标准化处理,公式为:,其中,X是频谱图数据,μ是频谱图数据的均值,σ是频谱图数据的标准差,Xnorm是标准化频谱图;构建用于提取婴幼儿哭声特征的自编码器模型,其中,自编码器模型的每层转换的公式为:,其中,hl+1:第l+1层神经元的输出,σ:激活函数,包括sigmoid、ReLU、tanh,W(l):第l层的权重矩阵,用于计算从第l层到第l+1层的权重,hl:第l层神经元的输出,b(l):第l层的偏置项,是一个常数;根据所述标准化频谱图输入所述自编码器模型进行训练,得到训练后的自编码器模型,其中,通过反向传播算法训练自编码器模型,反向传播算法的损失函数的表达式为:,其中,Ltotal:总损失函数,是自编码器输出的重构频谱图,为加入到损失函数中的正则化项,公式为:,其中,Wi,j是模型的权重向量,λ是正则化参数,β是KL散度的权重参数,:KL散度,ρ:模型预测的概率分布,:期望概率分布;将所述标准化频谱图输入训练后的自编码器模型,输出所述第一音频数据中与婴幼儿哭声对应的音频特征信息;所述根据所述音频特征信息,对含有婴幼儿哭声的音频数据进行处理,得到增强后的第二音频数据包括:根据所述婴幼儿哭声特征,对所述第一音频数据对应的频谱图进行重构,得到第二频谱图,其中,逆高斯标准化公式为:,其中,为第二频谱图,是自编码器输出的重构频谱图,μ是频谱图数据的均值,σ是频谱图数据的标准差;将所述第二频谱图进行转换,得到所述第二频谱图对应的音频数据,其中,使用逆快速傅里叶变换将第二频谱图从频域转换为时域,公式为:,其中,是第二频谱图,是转换回的时域音频信号;IFFT为逆快速傅里叶变换;对所述第二频谱图对应的音频数据进行信号增强处理,得到增强后的第二音频数据。

全文数据:

权利要求:

百度查询: 宁波星巡智能科技有限公司 基于机器学习的婴幼儿哭声增强方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。