买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉理工大学
摘要:本发明公开了一种双门限法与残差神经网络结合的声音语意识别方法及系统,首先自行收集了一套语音数据,针对这套数据进行了数据规范化等预处理操作;然后基于双门限法端点检测,寻找噪音点,进行降噪处理。同时使用分帧、加窗、傅里叶变换等一连串步骤将原始数据集中的所有音频转换为语谱图,得到图像数据集;最后使用深度残差网络对训练集进行训练,并根据训练到的模型在测试集中测试。本发明的优点在于:应用到船舶中实现了较高准确率的方法优化船舶护航能力,相较于人耳识别笛音具有成本低的特性。另外,本方法创新性的提出将端点检测与深度学习相结合的方式对语音进行语义理解,其效果远超单独利用端点检测或深度学习进行语音分类的方式。
主权项:1.一种双门限法与残差神经网络结合的声音语意识别方法,其特征在于,包括以下步骤:步骤1:构建数据集A,其中包含若干具有既定含义的音频数据以及一种无声时的空白音频;步骤2:利用数据集A,通过对多音道加权处理、下采样以及使用空白音频做填补处理,规范化处理后得到数据集B;步骤3:使用双门限法对数据集B进行端点检测,并设置阈值剔除不满足阈值的端点,之后根据端点对音频数据进一步处理,将未检测到声音的位置替换为空白音频,得到数据集C;步骤4:使用分帧、加窗、傅里叶变换将数据集C中的所有音频转换为语谱图,得到图像数据集D;步骤5:使用残差神经网络构建声音语意识别网络模型,利用数据集D,划分训练集和测试集,使用训练集对残差神经网络进行训练,实用测试集测试训练准确率,最后获得训练好的声音语意识别网络模型;所述声音语意识别网络模型,使用ResNet网络作为分类的主要网络框架;ResNet分为5个stage,其中Stage0为对INPUT的预处理,后4个Stage都由Bottleneck组成;Stage1包含3个Bottleneck,剩下的3个stage分别包括3、4、3个Bottleneck;Stage0中3,224,224指输入INPUT的通道数channel、高height和宽width,即C,H,W,输入的高度和宽度相等;该stage中第1层包括3个先后操作;卷积操作,7×7指卷积核大小,64指卷积核的数量,2指卷积核的步长为2;归一化操作,包括BN层,激活函数为ReLU激活函数;该stage中第2层为MaxPooling,即最大池化层,其kernel大小为3×3、步长为2;64,56,56是该stage输出的通道数channel、高height和宽width,其中64等于该stage第1层卷积层中卷积核的数量,56等于22422;形状为3,224,224的输入先后经过卷积层、BN层、RELU激活函数、MaxPooling层得到了形状为64,56,56的输出;Stage1的输入的形状为64,56,56,输出的形状为64,56,56;部分操作与Stage0中的是一致的,但其中有两个种类的Bottleneck结构,首先经过BTNK1对Stage0的输出进行处理,变成256,56,56的大小,然后经过两个BTNK2的处理得到该Stage的输出,其形状为256,56,56;对于BTNK2,有2个可变的参数C和W,即输入的形状C,H,W中的C和W;令形状为C,H,W的输入为x,令BTNK2左侧的3个卷积块以及相关BN和RELU为函数,两者相加Fx+x后再经过1个RELU激活函数,获得BTNK2的输出,输出的形状为C,H,W;BTNK1有4个可变的参数C、W、C1和S;与BTNK2相比,BTNK1多1个右侧的卷积层,令其为函数Gx;BTNK1对应输入x与输出Fx通道数不同的情况,添加的卷积层将x变为Gx,用于匹配输入与输出维度差异,进而求和Fx+Gx;Stage2的输入的形状为256,56,56,输出的形状为512,28,28;该部分包含了1个BTNK1块和2个BTNK2块;首先从Stage1中的输出经过一个256,56,128,2的BTNK1块,然后两次经过大小为512,28的BTNK2块,得到大小为512,28,28的输出;Stage3的输入的形状为512,28,28,输出的形状为1024,14,14;该部分包含了1个BTNK1块和3个BTNK2块;首先从Stage2中的输出经过一个256,28,256,2的BTNK1块,然后三次经过大小为1024,14的BTNK2块,得到大小为1024,14,14的输出;Stage4的输入的形状为1024,14,14,输出的形状为2048,7,7;该部分包含了1个BTNK1块和2个BTNK2块;首先从Stage3中的输出经过一个1024,14,512,2的BTNK1块,然后两次经过大小为2048,7的BTNK2块,得到大小为2048,7,7的输出;最后将输出扁平化,输入到前馈神经网络之中,利用Softmax层得到分类结果;步骤6:将实时采集到的音频数据输入所述训练好的声音语意识别网络模型中,获得其语意。
全文数据:
权利要求:
百度查询: 武汉理工大学 双门限法与残差神经网络结合的声音语意识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。