首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种拥有全局上下文信息的语音识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市弘芯半导体有限公司

摘要:本发明涉及语音识别算法领域;具体为一种拥有全局上下文信息的语音识别方法,包括以下步骤:S1、建立整体的自动语音识别框架结构,包含有声学编码器AsousticEncoder,上下文编码器ContextualEncoder以及解码器Decoder;S2、声学编码器采用多层Transformer的主体结构,将语音信号的Fbank特征通过2维卷积网络进行下采样,将采样特征输入到标准的6层Transformer编码器中,得到音频的潜在表征Z;通过设置声学编码器、上下文编码器、解码器组成语音识别方法,提高了模型识别的准确率,通过总体loss的计算公式,实现了利用非自回归模型进行全局上下文信息提取、打破了非自回归识别中的独立性假设、实现高准确率的语音识别。

主权项:1.一种拥有全局上下文信息的语音识别方法,其特征在于:包括以下步骤:S1、建立整体的自动语音识别框架结构,包含有声学编码器AsousticEncoder,上下文编码器ContextualEncoder以及解码器Decoder;S2、声学编码器采用多层Transformer的主体结构,将语音信号的Fbank特征通过2维卷积网络进行下采样,将采样特征输入到标准的6层Transformer编码器中,得到音频的潜在表征Z;S3、上下文编码器采用非自回归结构,生成固定长度为L的位置向量P,L为数据集中最大文本长度,并使用位置向量P作为查询向量,去和声学编码器的输出Z进行交叉注意力计算;S4、引入基于2DRope位置编码的Self-Attention结构,通过上下文编码器用位置向量去预测每一个解码位置对应的声学编码范围和文字,由于上下文解码器的优化目标是目标文字,因此其中的隐藏层向量具有全局的上下文信息;S5、解码器的整体是基于Transformer的自回归解码器,将上下文编码器中的隐藏层向量引入至解码器内,避免传统的解码器为一步一步进行预测,因此无法获取全局的上下文信息的情况。

全文数据:

权利要求:

百度查询: 深圳市弘芯半导体有限公司 一种拥有全局上下文信息的语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。