稀疏自适应多模态视听语音识别方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：长春大学

摘要：稀疏自适应多模态视听语音识别方法和系统，涉及语音技术处理领域。解决现有视听语音识别利用Transformer结构，难以集中关注重要信息，导致识别精度降低，且无法最优地利用音视频信息，从而影响会模型的整体识别性能的问题。所述方法包括：预处理音频数据集中音频文件和视频文件；采用STFT来提取音频文件中音频特征；采用视觉前端模型提取视频文件中视频特征；将音频特征送入音频编码器获得音频特征编码，视频特征送入视频编码器获得视频特征编码；采用自定义的自适应注意力融合音频特征和视频特征，融合后的特征通过CNN层降维；通过解码器处理降维后的融合特征，生成最终的输出特征。本发明应用于人工智能领域。

主权项：1.一种基于Transformer的稀疏自适应多模态视听语音识别方法，其特征在于，所述方法包括：步骤S1：预处理音频数据集中音频文件和视频文件；步骤S2：采用STFT来提取音频文件中音频特征；步骤S3：采用视觉前端模型提取视频文件中视频特征；步骤S4：将音频特征送入音频编码器获得音频特征编码，视频特征送入视频编码器获得视频特征编码；步骤S5：采用自定义的自适应注意力融合音频特征编码和视频特征编码，融合后的特征编码通过CNN层降维；步骤S6：通过解码器对降维后的融合特征编码进行联合解码，生成最终的输出特征。

全文数据：

权利要求：

百度查询：长春大学稀疏自适应多模态视听语音识别方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：叔丁醇的制造方法

下一篇：App自测试系统、方法、电子设备及存储介质

相关技术

叔丁醇的制造方法

App自测试系统、方法、电子设备及存储介质

一种线性工程快速出图方法及系统

一种水分测定仪

一种用于实现低速清扫车自动行驶系统的方法

一种放射性同位素碳-14标记的巴德卡鲁胺及其制备方法和应用

一种粗氨气净化及制取液氨的装置及方法

一种竹浆纸制备用破碎分削切片装置

用于工业环境中对象的质量评估的方法和系统

点云配准方法、装置、存储介质、计算机设备和程序产品

一种电网高影响天气特征与模式识别方法及系统

高端计算机处理器用散热器及其制造方法

视听相关技术

基于视听融合的道路场景识别方法及系统_山东省凯麟环保设备股份有限公司_202410992437.1

稀疏自适应多模态视听语音识别方法和系统_长春大学_202411419481.X

基于视听信息融合的旋转机械故障信号分离和诊断方法_东北大学_202411320774.2

具有视听立体效果的LED显示屏框架结构_上海奕光电子科技有限公司_202323449183.9

场景感知的视听语音增强方法、装置、介质及程序产品_本相空间(珠海)科技有限公司_202411407184.3

用于从视听内容访问远程资源和服务的方法和系统_斯科勒姆平台股份有限公司_202380020368.1

一种视听组合的广告设计展示设备_无锡城市职业技术学院_202411100388.2

基于视听觉的脚部力行程的注意力测训装置及系统_浙江凡聚科技有限公司_201910945870.9

视听辅助降噪语音识别系统_上海集之数字科技有限公司_202411262587.3

一种装配式室内视听环境降噪栏杆及其使用方法_漳州职业技术学院_202411021106.X

语音相关技术

一种语音识别方法、语音识别装置、电子设备及存储介质_中移(苏州)软件技术有限公司_202010700307.8

一种基于矢量语音传感器阵列的语音增强方法及装置_中国电子科技集团公司第三研究所_202111055145.8

一种智能语音盒子及其控制方法、语音交互系统_杭州老板电器股份有限公司_202411202028.3

一种空管语音记录仪的语音分割方法及系统_广州市中南民航空管通信网络科技有限公司_202410943143.X

一种语音识别方法、装置和用于语音识别的装置_北京搜狗科技发展有限公司_201911383577.4

在内代理语音以促进任务学习_渊慧科技有限公司_202380031694.2

语音质量评估方法和装置_中国电信股份有限公司_202010795964.5

显示设备及语音服务切换方法_VIDAA美国公司_202110934009.X

语音控制启动的打火机_温州启点轻工有限公司_202420117861.7

用于语音拾取的质点振速传感器微阵列及语音拾取方法_中国电子科技集团公司第三研究所_202011429411.4

态相关技术

一种基于高效量子剪刀的混合纠缠GHZ态的制备方法_南京邮电大学_202410842905.7

一种预拌流态固化土及其制备方法_武汉华强新型建筑材料有限公司_202411024301.8

一种超临界燃煤机组干湿态转换的方法及系统_浙江浙能中煤舟山煤电有限责任公司_202410941026.X

基于开山土的高强流态固化土制备设备_深圳宏业基岩土科技股份有限公司_202411189591.1

一种游离态PLX5622晶型及其制备方法_上海皓元生物医药科技有限公司_202380033332.7

一种不同价态酸根离子的离子色谱检测方法_浙江大学_202411366231.4

基于子载波偏振态控制的偏振相关损耗缓解方法及系统_上海交通大学_202410959423.X

一种湿态生物发酵蛋白饲料及其制备方法及其应用_山东香驰粮油有限公司_202311282996.5

一种环保型流态土及其基坑肥槽回填方法_广州市建筑科学研究院集团有限公司_202410957135.0

领域知识驱动的可解释神经网络焦炭热态质量预测模型_苏州工业园区蒙纳士科学技术研究院_202411029309.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

稀疏自适应多模态视听语音识别方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务