平安科技(深圳)有限公司庄子扬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉平安科技(深圳)有限公司申请的专利语音识别模型训练方法、装置、计算机设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116434741B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310258862.3,技术领域涉及:G10L15/06;该发明授权语音识别模型训练方法、装置、计算机设备及存储介质是由庄子扬;魏韬;马骏;王少军设计研发完成,并于2023-03-09向国家知识产权局提交的专利申请。
本语音识别模型训练方法、装置、计算机设备及存储介质在说明书摘要公布了:本申请涉及人工智能技术,公开了一种语音识别模型的训练方法。本申请提供的语音识别模型包含解码器,该解码器包含多头交叉注意力单元,该多头交叉注意力单元包含高斯增强单调对齐子模块,本申请提供的训练方法包括:通过卷积采样层和编码器依次处理音频数据得到第一音频编码向量;通过向量映射层处理文本数据得到第一文本编码向量;通过多头交叉注意力单元根据所述第一音频编码向量和所述第一文本编码向量得到第一注意力矩阵;通过高斯增强单调对齐子模块重构所述第一注意力矩阵得到高斯增强单调对齐注意力矩阵;通过解码器解析所述高斯增强单调对齐注意力矩阵得到识别结果;重复前述步骤,直至所有损失函数分别达到收敛,得到目标语音识别模型。
本发明授权语音识别模型训练方法、装置、计算机设备及存储介质在权利要求书中公布了:1.一种语音识别模型的训练方法,所述语音识别模型包含卷积采样层、编码器、解码器、向量映射层,所述解码器包含多头交叉注意力单元,其特征在于,所述训练方法包括: 将训练样本数据中的音频数据输入所述卷积采样层进行处理,得到第一音频特征序列数据; 将所述第一音频特征序列数据输入至所述编码器进行处理,得到第一音频编码向量,并计算所述编码器的连接时序分类损失; 将所述训练样本数据中的文本数据输入所述向量映射层进行处理,得到第一文本编码向量; 将所述第一音频编码向量和所述第一文本编码向量输入至所述多头交叉注意力单元进行计算,得到第一注意力矩阵; 重构所述第一注意力矩阵,得到高斯增强单调对齐注意力矩阵,并计算软单调对齐损失; 通过所述解码器解析所述高斯增强单调对齐注意力矩阵,得到所述训练样本数据中音频数据和文本数据的语音识别关系,并计算所述解码器的交叉熵损失; 重复前述步骤,直至所述连接时序分类损失、所述软单调对齐损失和所述交叉熵损失分别达到收敛,得到目标语音识别模型; 其中,所述重构所述第一注意力矩阵,得到高斯增强单调对齐注意力矩阵,包括:通过所述第一注意力矩阵构建第一序列映射向量,并设置所述第一序列映射向量的第一限制条件,其中,所述第一限制条件包含当前文字输出与前一文字输出的第一差值;将所述第一差值输入第一激活函数,得到第二差值,其中,所述第二差值恒大于等于0;累加所述第二差值,得到第二序列映射向量,使用所述第二序列映射向量构造所述高斯增强单调对齐注意力矩阵 其中,通过如下公式构造所述第一序列映射向量: 其中,表示输入音频特征序列的长度,表示所述第一注意力矩阵,表示输入序列,表示所述第一序列映射向量; 其中,所述第一限制条件为: 其中,表示当前序列映射向量与前一序列映射向量的差值,表示输出文字特征序列的长度,表示超参数常量; 其中,根据如下公式计算所述软单调对齐损失: 其中,表示第二超参数常量,表示第三超参数常量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励