基于多模态的音频检测纠错方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：天津市国瑞数码安全系统股份有限公司

摘要：本发明提供一种基于多模态的音频检测纠错方法和系统，通过结合声学模型、语义模型以及视觉模型等多种模态信息，对语音识别结果进行自动检测和纠错，克服由于环境噪声、口音差异、语速等因素，现有语音识别结果往往存在误差，无法自动纠错的问题。

主权项：1.一种基于多模态的音频检测纠错方法，其特征在于，所述方法包括：接收音频数据和视频数据，并对其进行预处理，包括降噪或分频步骤；采用声学模型对预处理后的音频数据进行第一处理，获得多个第一候选识别结果以及对应的声学得分；所述第一处理包括：按时刻连续采样预处理后的音频数据，当前时刻的采样值减去上一时刻采样值与预设系数的乘积，得到当前时刻的补偿值；提取所述补偿值的特征值；将连续采样对应的所述特征值输入所述声学模型，得到多个第一候选的识别结果和对应的标识，以及根据该识别结果的概率大小得到对应的声学得分；采用语义模型对预处理后的音频数据进行第二处理，获得每个第一候选识别结果对应的语义得分；所述第二处理包括：将连续采样的预处理后的音频数据，以及多个第一候选识别结果的标识，输入所述语义模型，得到标识对应的语义识别结果，以及根据该识别结果的概率大小得到对应的语义得分；结合声学得分和语义得分，为每个第一候选识别结果计算权重得分；将权重得分最高的第一候选识别结果作为目标识别结果；结合视觉模型对目标识别结果进行验证和纠错；所述验证和纠错包括：根据音频数据的帧数与视频数据中图像的帧数的比值，对视频数据进行帧插入操作；帧插入后的视频数据与音频数据同步、归一化，得到处理后的视频数据；将该处理后的视频数据输入视觉模型，识别视频图像中嘴部的动作，得到视频模态的第二识别结果；如果所述目标识别结果与第二识别结果不匹配，则降低该目标识别结果的权重得分，重新进行权重得分排序，选择权重得分最高的第一候选识别结果作为新的目标识别结果；输出纠错后的语音识别结果。

全文数据：

权利要求：

百度查询：天津市国瑞数码安全系统股份有限公司基于多模态的音频检测纠错方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种功能化壳聚糖基复合气凝胶、制备方法和用途

下一篇：增粘剂组合物

相关技术

一种功能化壳聚糖基复合气凝胶、制备方法和用途

增粘剂组合物

船舶的自动控制水雾抑爆系统及方法

通流散热结构、印刷电路板及印刷电路板的制备方法

一种废旧圆柱形锂电池回收设备

一种激光直写纸基多通道LIG传感器的制备方法及其应用

止推轴承和车辆的麦弗逊悬架

介离子性芳基哒嗪鎓衍生物或其盐类和含有该化合物的杀虫剂及其使用方法

数字城市治超治载监管系统

除盐装置的运转方法

电感器

墙壁镶板或天花板镶板

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多模态的音频检测纠错方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务