恭喜四川大学林毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜四川大学申请的专利噪声环境下音视频渐进式融合训练的语音识别方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119107945B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411131514.0,技术领域涉及:G10L15/22;该发明授权噪声环境下音视频渐进式融合训练的语音识别方法及装置是由林毅;赵之硕;郭东岳;左青海设计研发完成,并于2024-08-18向国家知识产权局提交的专利申请。
本噪声环境下音视频渐进式融合训练的语音识别方法及装置在说明书摘要公布了:本发明公开了一种噪声环境下多模态渐进式融合训练的音视频识别方法及装置,涉及音视频多模态技术领域。本发明利用多模态数据,首先构建音视频联合编码器模型,并进行迭代式无监督预训练;再添加多尺度特征提取模块和解码器构建音视频识别模型;最后对音视频识别模型进行多阶段渐进式融合训练,具体包括两个步骤:模态课程学习阶段和噪声课程学习阶段,实现模态之间的引导学习。本发明利用音频和视觉两种模态信息,实现了跨模态的特征联合映射,使模型在复杂噪声环境下依然能够保持高效的语音指令识别性能。
本发明授权噪声环境下音视频渐进式融合训练的语音识别方法及装置在权利要求书中公布了:1.一种噪声环境下基于音视频渐进式融合训练的语音识别方法,其特征在于,包括以下步骤:步骤1:采集并预处理说话阶段音视频数据,并对音视频数据进行文本转录标注,生成训练所需的文本标签数据,构建音视频数据库;步骤2:构建音视频联合编码器模型并进行无监督预训练,得到多模态对齐模型MMAMuti-ModalAlignmentModel,音视频联合编码器模型包括音视频前端、联合编码器和聚类预测层;无监督训练预训练过程包括伪标签生成和模型自监督训练交替进行;在初始伪标签生成后,通过迭代的方式进一步优化伪标签和模型;使用初始伪标签进行初步的自监督训练,优化模型参数,然后利用优化后的模型生成新的音视频特征表示,对新的特征表示进行再次聚类,生成更新的伪标签;这个过程重复进行,逐步优化伪标签和模型;步骤3:将步骤2得到的多模态对齐模型MMA添加多尺度特征提取模块和解码器构建音视频识别模型,并结合步骤1得到的音视频数据库,进行多阶段渐进式融合训练,得到音视频识别模型AMGAdaptiveModalityGuidanceModel;步骤4:将所需识别的音视频信息输入步骤3训练后的音视频识别模型AMG,得到音视频文本转录结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610065 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。