买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:长春大学
摘要:稀疏自适应多模态视听语音识别方法和系统,涉及语音技术处理领域。解决现有视听语音识别利用Transformer结构,难以集中关注重要信息,导致识别精度降低,且无法最优地利用音视频信息,从而影响会模型的整体识别性能的问题。所述方法包括:预处理音频数据集中音频文件和视频文件;采用STFT来提取音频文件中音频特征;采用视觉前端模型提取视频文件中视频特征;将音频特征送入音频编码器获得音频特征编码,视频特征送入视频编码器获得视频特征编码;采用自定义的自适应注意力融合音频特征和视频特征,融合后的特征通过CNN层降维;通过解码器处理降维后的融合特征,生成最终的输出特征。本发明应用于人工智能领域。
主权项:1.一种基于Transformer的稀疏自适应多模态视听语音识别方法,其特征在于,所述方法包括:步骤S1:预处理音频数据集中音频文件和视频文件;步骤S2:采用STFT来提取音频文件中音频特征;步骤S3:采用视觉前端模型提取视频文件中视频特征;步骤S4:将音频特征送入音频编码器获得音频特征编码,视频特征送入视频编码器获得视频特征编码;步骤S5:采用自定义的自适应注意力融合音频特征编码和视频特征编码,融合后的特征编码通过CNN层降维;步骤S6:通过解码器对降维后的融合特征编码进行联合解码,生成最终的输出特征。
全文数据:
权利要求:
百度查询: 长春大学 稀疏自适应多模态视听语音识别方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。