首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于注意力重打分的流式语音识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安电子科技大学

摘要:本发明提出了一种基于注意力重打分的流式语音识别方法,实现步骤为:获取训练数据集;构建基于注意力重打分的流式语音识别模型;对流式语音识别模型进行迭代训练;获取实时语音识别结果。本发明所构建的流式语音识别模型包括有注意力重打分阶段,在对该模型进行训练以及获取实时语音识别结果的过程中,利用完整的语音编码对流式语音识别的结果进行优化,在流式识别的过程中也可以充分利用完整的语音信息,在保持流式低延迟的同时有效提高了识别准确率。

主权项:1.一种基于注意力重打分的流式语音识别方法,其特征在于,包括如下步骤:1获取训练数据集:1a获取来自不同说话人的N条无噪声语音数据S={s1,...,sn,...,sN}和与S对应的文本内容L={l1,...,ln,...,lN},以及来自不同场景的M条自然噪声数据F={f1,...,fm,...,fM};其中N≥200000,sn表示第n条无噪声语音数据,ln表示sn的对应的文本内容,M≥2000,fm表示第m条自然噪声数据;1b将S的每一条无噪声语音数据sn与F中的任意一条自然噪声数据进行混合得到训练数据,将N条训练数据组合成为训练数据集T={t1,...,tn,...,tN},其中,tn表示sn对应的训练数据;2构建基于注意力重打分的流式语音识别模型:2a构建基于注意力重打分的流式语音识别模型的结构:构建包括顺次连接的语音特征提取模块、流式语音识别模块和注意力重打分模块的流式语音识别模型;流式语音识别模块包含顺次连接的带位置编码的全连接层、语音编码器和联结时序分类CTC预测层,其中,语音编码器包含顺次连接的多个Conformer结构,CTC预测层采用激活函数为Softmax函数的全连接层;注意力重打分模块包含顺次连接的注意力解码器和注意力预测层,其中,注意力解码器包含顺次连接的多个Transformer结构,注意力预测层采用激活函数为Softmax函数的全连接层;2b定义基于注意力重打分的流式语音识别模型的损失函数LJoint:LJoint=λLCTC+1-λLAttention其中LCTC代表CTC损失函数,LAttention代表注意力损失函数,λ为权重因子,0<λ<1;LAttention使用带有标签平滑的KL散度损失;3对流式语音识别模型V进行迭代训练:3a初始化迭代次数为i,最大迭代次数为I,I≥200,当前的流式语音识别模型为Vi,并令i=1,V=Vi;3b按批次将训练数据集T作为流式语音识别模型V的输入进行前向传播:3b1语音特征提取模块提取每个训练数据tn的梅尔滤波器组FBank特征;3b2流式语音识别模块将每个训练数据tn的梅尔滤波器组FBank特征均匀划分为多个语音块,带位置编码的全连接层为tn所有语音块的FBank特征添加相对位置编码,并将tn的带有带位置编码的FBank特征均匀划分为多个语音块;语音编码器逐块计算每个语音块的语音编码,在计算过程中需要对语音编码器中每个Conformer结构的多头自注意力的视野进行限制,处理每个语音块时仅能计算对当前语音块以及当前语音块之前固定数量的语音块的注意力,所有语音块的语音编码组成tn的语音编码;CTC预测层采用CTC前缀束搜索算法,束宽设置为R,10≤R≤50,根据所有语音块的语音编码计算tn的条流式识别结果和对应的流式分数;3b3注意力重打分模块中注意力解码器通过tn的完整语音编码和R条流式识别结果,计算每条流式识别结果对应的解码信息;注意力预测层根据解码信息计算每条流式识别结果的注意力分数,然后对每条流式识别结果的流式分数与注意力分数进行加权求和得到每条流式结果的最终分数,再将最终分数最高的流式识别结果作为tn的最终识别结果ln;3c采用联合损失函数LJoint,通过ln和ln计算第i次迭代中流式语音识别模型的损失值,并采用Adam优化方法,通过最小化损失值对流式语音识别模型中流式语音识别模块和注意力重打分模块的权重参数进行更新,得到第i次迭代后的目标说话人实时语音信息提取模型Vi;3d判断i≥I是否成立,若是,得到训练好的流式语音识别模型V*,否则,令i=i+1,并执行步骤3b;4获取实时语音识别结果:4a将实时采集的语音流裁剪为等长的多个语音块,并将所裁剪的多个语音块作为训练好的流式语音识别模型V*的输入进行前向传播,得到实时地获取多条流式识别结果以及相应的流式分数,使用流式分数最高的一条流式识别结果作为实时语音识别的结果;4b在语音流结束后,V*会对流式识别结果进行重打分,给出最终识别结果。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于注意力重打分的流式语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。