买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学;中国电子科技集团公司第三十六研究所
摘要:一种基于Conformer的实时中文语音识别及识别结果文本处理方法,麦克风录制语音数据作为语音输入,时间每经过一个固定时长T,提取语音的Fbank特征,使用基于Conformer的声学模型进行推理,再使用基于CTC的解码器网络进行流式解码,然后判断当前识别结果末尾是否为句子的句末,进行标点恢复后,最终得到完整句子的识别结果。根据实时语音识别的特性,通过识别结果的更新判断句末提取完整的句子。本发明可以增强识别结果的可读性,更适合于实时语音识别结果传输的场合。
主权项:1.一种基于Conformer的实时中文语音识别及识别结果文本处理方法,其特征在于,所述方法包括以下步骤:S1:语音输入,过程如下:麦克风录制语音数据作为语音输入,时间每经过一个固定时长T,对麦克风缓冲区的语音数据进行处理;S2:提取特征,过程如下:获取S1中需要进行处理的数据,采用前端处理方法Fbank,以类似人耳的方式对音频进行处理,对于语音数据进行预加重提高语音信号在高频部分的信噪比,然后分帧、加窗,进行快速傅里叶变换,计算谱线能量,进行Mel滤波,取对数得到Fbank特征;S3:声学模型推理,过程如下:将S2中得到的Fbank特征作为Conformer编码器的输入,Conformer编码器由降采样模块以及N个编码器模块组成,降采样模块由2层降采样的CNN构成,编码器模块的构成为前馈模块、多头自注意力模块MHSA、卷积模块和前馈模块,每个模块前都设置了一个层归一化,编码器模块中的每个模块后均设置一个残差单元;所述的多头自注意力模块包括层归一化、集成相对正弦位置编码的多头自注意力和随机丢弃层;所述的卷积模块包含一个扩展因子为2的逐点卷积,通过GLU激活层投影通道数,然后是一维深度卷积,一维深度卷积后接批归一化和Relu激活层,最后接一个逐点卷积;Conformer编码器将输入的帧级别声学特征x=x1,x2,...,xT映射到序列高级表示h=h1,h2,...,hU;S4:流式解码,过程如下:将S3中映射得到的Conformer编码器输出特征h作为CTC解码器的输入进行解码,在说话中,使用CTCprefixbeamsearch进行解码。说话结束后,使用CTCprefixbeamsearch+atten-tion_rescoring进行解码,经过Softmax层之后,CTC解码器的输出为pqt|h,qt为t时刻的输出,则标签序列l所有路径概率总和为: 其中,Pl|x表示标签序列l所有路径概率总和,Γqt表示为标签序列l的多对一的映射,表示路径集合上的概率分布,T表示网络输出的分布个数,qt|h表示在给定输入下t时刻的输出,h表示给定输入序列;输出序列中最大的标注序列为l*=arg1maxPl|h2对于解码的候选结果的打分,除了有声学模型的分数外,还会有额外的语言模型分以及长度惩罚分,最终得分score为score=PamW|X·PlmWα·|W|β3其中,W为解码结果,X为输入语音,PamW|X为声学模型的分数,PlmW为语言模型分,|W|为长度惩罚分,α和β为设定的超参数;S5:获取识别结果:根据S4中的打分结果,选出最高分数最高的候选结果,作为识别结果输出;S6:判断是否为句子的句末,过程如下:在每个固定时间T内,步骤S1-S5都将执行,若有可识别的语音输入,都有识别结果输出更新,当某个固定时间T内没有识别结果更新且前一个固定时间T内有识别结果更新时,视为该固定时间T处于当前句子的句末,将当前句子作为目标句子;S7:标点恢复,过程如下:将S6中的目标句子作为标点恢复模型的输入,标点恢复模型将获取所述目标文本中每个词的局部上下文信息,并基于所述目标文本中每个词的局部上下文信息,预测所述目标文本中的标点,得到标点恢复后的目标句子;S8:获得最终结果:将S7中得到的标点恢复后的目标句子按一定格式保存,作为该句子所对应的语音的最终识别结果。
全文数据:
权利要求:
百度查询: 浙江工业大学 中国电子科技集团公司第三十六研究所 基于Conformer的实时中文语音识别及识别结果文本处理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。