首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种不同人分类辅助的无声语音识别方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军军事科学院国防科技创新研究院

摘要:本发明公开了一种不同人分类辅助的无声语音识别方法和系统,方法包括获取无声说话状态下的面部肌电信号,对面部肌电信号进行预处理并提取肌电特征;将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;将识别出的指令传输到设备上,进行显示或相应设备的操控。本发明提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型,该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息,与不同指令信息进行特征融合,从而降低模型训练的难度,提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能,通过这种辅助信息的融合,能够获得更高的识别准确率。

主权项:1.一种不同人分类辅助的无声语音识别方法,其特征在于,所述无声语音识别方法包括:获取无声说话状态下的面部肌电信号,对面部肌电信号进行预处理并提取肌电特征;将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;将识别出的指令传输到设备上,进行显示或相应设备的操控;所述对面部肌电信号进行预处理并提取肌电特征包括:对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪;采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测,分割出有效肌电信号段;提取出有效肌电信号段的梅尔频率倒谱系数特征;所述提取出有效肌电信号段的梅尔频率倒谱系数特征,包括:对有效肌电信号段进行预加重、分帧和加窗操作;对每一个短时分析窗,通过FFT得到对应的频谱;将对应的频谱通过Mel滤波器组得到Mel频谱;将Mel频谱取对数并经过余弦变换得到MFCC特征;所述无声语音识别模型使用如下方式建立:获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习;所述双流网络结构,包括深度神经网络和LSTM网络并列的网络结构,深度神经网络和LSTM网络之间使用特征交互模块进行信息交互,所述特征交互模块为残差卷积神经网络;深度神经网络和LSTM网络输出部分与特征融合层连接,特征融合层与分类预测层的输入层连接,所述分类预测层为全连接神经网络;所述深度神经网络用于不同人特征的学习;其输入数据为不同人的相同无声语音指令对应的肌电特征,输出数据为其学习到的相同无声语音指令中不同人的特征;所述LSTM用于不同指令特征的学习;其输入数据为同一个人的肌电特征,输出数据为对应的不同的无声语音指令;包括:将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到遗忘门中,通过一个sigmoid激活函数对输入特征xt进行处理;如式9所示;ft=sigmoidWf1xt+Wf2ht-1+bf9其中,Wf为LSTM网络模型的权重参数,Wf1为输入特征xt对应的权重,Wf2为上一层的输出ht-1对应的权重;bf为LSTM网络模型遗忘门的偏置参数;将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输入门中,输入门包含两个部分,第一部分使用sigmoid激活函数处理输入特征xt,输出为it;第二部分使用tanh激活函数处理输入特征xt,输出为i'i,输入门的输出结果如式10所示:Ct=Ct-1*ft+it*i'i10其中,Ct-1是上一个LSTM网络输入门的输出,ft是遗忘门的输出,it和i'i分别为输入门的中间值;将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输出门中;输出门首先对xt使用sigmoid激活函数得到ot,再与输入门的输出值相结合,如式11所示:ht=ot*tanhCt11其中,Ct是输入门的输出值,tanh是激活函数,ht是LSTM网络最终的输出结果;所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互;所述特征融合层用于融合深度神经网络和LSTM训练后得到的特征;所述全连接神经网络用于对学习的特征进行分类;所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互包括:对于不同指令特征的交互:将不同人特征和不同指令特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同指令特征相加,送入LSTM网络中进行新一轮的学习;对于不同人特征的交互:将不同指令特征和不同人特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同人特征相加,送入深度神经网络中进行新一轮的学习。

全文数据:

权利要求:

百度查询: 中国人民解放军军事科学院国防科技创新研究院 一种不同人分类辅助的无声语音识别方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。