买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军军事科学院国防科技创新研究院
摘要:本发明公开了一种基于回译的无声语音识别方法和系统,方法包括:采集无声说话状态下的无声表面肌电信号;将无声表面肌电信号进行预处理和特征提取,得到无声肌电特征;将无声肌电特征送入SAEM模型得到对应的有声肌电特征;将对应的有声肌电特征送入到语音转换模型得到对应的音频特征;使用语音合成模型将对应的音频特征转化为生成的音频信号,使用语音识别模型将生成的音频信号转为文本。本发明所设计的一种基于回译的无声语音识别方法和系统,利用编码器‑解码器网络进行无声肌电信号和有声肌电信号间的转换,并且有创新性地将机器翻译中回译的方法迁移到肌电信号上,从而利用非平行数据提升无声语音识别效果,最终提升无声语音识别效果。
主权项:1.一种基于回译的无声语音识别方法,其特征在于,所述无声语音识别方法包括:采集无声说话状态下的无声表面肌电信号;将无声表面肌电信号进行预处理和特征提取,得到无声肌电特征;将无声肌电特征送入SAEM模型得到对应的有声肌电特征;将对应的有声肌电特征送入到语音转换模型得到对应的音频特征;使用语音合成模型将对应的音频特征转化为生成的音频信号,使用语音识别模型将生成的音频信号转为文本;所述SAEM模型,通过如下方式训练获得:采集无声说话状态下的无声表面肌电信号及对应的信息,采集有声说话状态下的有声表面肌电信号和对应的音频信号;对采集的无声表面肌电信号、有声表面肌电信号进行预处理和特征提取,得到无声肌电特征、有声肌电特征;将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中,训练SAEM模型和ASEM模型;使用回译的方法优化SAEM模型;所述编码器-解码器网络为一个Seq2Seq网络,网络以Conformer为编码器、自回归循环网络为解码器;编码器由多个Conformer模块组成,Conformer模块由前馈神经网络子模块、多头注意力子模块,卷积子模块三个子模块组成,每个子模块之间使用残差连接;所述前馈神经网络子模块,包括一个LayerNorm层,一个线性层,一个Swish激活函数和Dropout,计算方式如式9所示: 其中,xi表示第i个维度输入;x'i、x″i、x″′i都是中间变量;其中Swish激活函数如下所示:fx=x·sigmoidxx是变量,sigmoid函数为所述多头注意力子模块,包括一个LayerNorm,一个相对位置编码,一个Dropout和一个自注意力机制,计算方式如式10所示: 其中,xi表示第i个维度输入;x'i、x″i都是中间变量;所述卷积子模块,包括一个LayerNorm,两个point-wise卷积,一个线性门单元,一个Depth-wise卷积、一个BatchNorm和一个Dropout,计算方式如式11所示: 其中,xi表示第i个维度输入;x'i、x″i、x″′i都是中间变量;整个Conformer块的计算方式如式12所示: 其中,x是解码器的输入序列,x={x1,x2,…,xi,…xN},xi表示第i维信号特征输入,FFN表示前馈神经网络子模块,MHSA表示多头自注意力子模块,Conv表示卷积子模块,yi表示第i维Conformer块的计算结果;x'i1、x″i1都是中间变量;解码器是一个自回归循环神经网络,由一层Pre-net网络、两层LSTM、Attention层、线性层和sigmoid组成,其计算方式如式13所示: 其中,x是解码器的输入序列,x={x1,x2,…,xi,…xN},x'都是中间变量,context是上下文向量,初始时被初始化为0;ha、hi是循环神经网络的隐藏向量;ca、ci是循环神经网络的记忆单元向量;s是编码器的输出,s={s1,s2,…,si,…sM};frame是解码器预测的信号特征,stop_token是解码的终止条件,在进行预测时,当stop_token大于某一阈值时,就终止预测;Pre-net是双层全连接网络,每层由256个隐藏ReLU单元组成,表示为式14所示:Prenetx=ReLUReLUxWA+bAWB+bB14其中,WA是x的权重系数,bA是xWA的偏移量,WB是ReLUxWA+bA的权重系数,bB是ReLUReLUxWA+bAWB的偏移量,ReLU·是激活函数,x是输入序列;所述将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中,训练生成SAEM模型和ASEM模型,包括:输入进入编码器网络和输入进入解码器网络;所述输入进入编码器网络包括:输入进入Confromer模块;在Conformer模块中,输入通过前馈神经网络子模块并乘以0.5进行缩放,加上原始输入,作为多头注意力子模块的输入;然后经过多头注意力子模块后,与输入相加,作为卷积子模块输入;再通过卷积子模块提取特征信息,与卷积子模块的输入相加,作为另一个前馈神经网络子模块的输入;最后输入经过前馈神经网络子模块,与输入相加,对结果进行归一化后,获得编码器网络的输出;输入进入解码器网络包括:解码器网络的输入和编码器网络的输出一起进入解码器网络进行解码;首先解码器网络的输入进入Pre-net网络;Pre-net的输出和注意力上下文向量拼接在一起,送入第一层LSTM网络;第一层LSTM的隐藏层结果和编码器网络的输出一起送入Attention层得到注意力上下文向量,将第一层LSTM的隐藏层结果和注意力上下文向量再次拼接在一起,送入第二次LSTM网络,得到第二层LSTM网络的隐藏层向量,将隐藏层向量与注意力上下文向量拼接,通过线性层得到输出,每一帧输出通过sigmoid层得到终止值;当输入为无声肌电特征,输出为有声肌电特征时,编码器-解码器网络用于训练无声肌电到有声肌电转换的SAEM模型;当输入为有声肌电特征,输出为无声肌电特征时,编码器-解码器网络用于训练有声肌电到无声肌电转换的ASEM模型;所述使用回译的方法优化SAEM模型包括:将有声肌电特征aEmg输入ASEM模型中生成无声肌电特征sEmg',将伪无声肌电特征sEmg'——aEmg作为伪平行语料,和原来的平行语料sEmg——aEmg一起作为训练数据,训练SAEM;使用MSELOSS作为损失优化函数;MSELOSS如下式15所示: 其中,yi是真实结果,是模型预测结果,N是样本数目。
全文数据:
权利要求:
百度查询: 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。