一种基于口型辅助语音识别的数字人交互判别方法及系统

导航：龙图腾网> 最新专利技术> 一种基于口型辅助语音识别的数字人交互判别方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：齐鲁银行股份有限公司

摘要：本发明属于人机交互判别技术领域，具体涉及一种基于口型辅助语音识别的数字人交互判别方法及系统，包括：获取用户的实时语音和口型视频流；识别所获取的语音，得到语音识别置信度和语音识别结果；根据所获取的口型视频流进行用户的口型识别，得到口型识别结果；根据所得到的语音识别置信度、语音识别结果和口型识别结果，识别用户的语音语义；根据所得到的语音语义，判断用户所需办理的业务内容；根据需办理的业务内容，向用户推荐分配业务办理窗口，实现语音识别与业务办理窗口之间的交互联动。

主权项：1.一种基于口型辅助语音识别的数字人交互判别方法，其特征在于，包括：获取用户的实时语音和口型视频流；识别所获取的语音，得到语音识别置信度和语音识别结果；根据所获取的口型视频流进行用户的口型识别，得到口型识别结果；根据所得到的语音识别置信度、语音识别结果和口型识别结果，识别用户的语音语义；根据所得到的语音语义，判断用户所需办理的业务内容；根据需办理的业务内容，向用户推荐分配业务办理窗口，实现语音识别与业务办理窗口之间的交互联动；具体的，利用YOLOv5算法，找到每一帧图像中人脸的嘴部位置，对图像进行预测坐标位置的切割，保证口型位于图像的中间位置；对切割后的图像进行包括去噪、增强和分割操作在内的预处理；对预处理后的图像数据进行特征提取，得到口腔结构的三维模型图像；采用数据增广对三维模型图像进行图像增强；将三维模型输入到DResNeXt与GRU的复合式卷积神经网络中进行训练，通过Yolov5算法处理过的数据传入该网络中，残差结构提取特征，GRU保证时序信息的传递与保存，再通过softmax得到预测的结果；调整网络参数使其能够对图像进行更好的识别，得到口型识别模型；将训练好的口型识别模型应用到整体的数字人应用中，用于辅助判断语音识别结果。

全文数据：

权利要求：

百度查询：齐鲁银行股份有限公司一种基于口型辅助语音识别的数字人交互判别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：耐冲击不锈钢提纯罐

下一篇：一种工程测量设备

相关技术

耐冲击不锈钢提纯罐

一种工程测量设备

一种多功能料理机

一种管状带式输送机防偏转装置

一种可自动模块化管理的全方位监测装置

一种防松螺丝

一种固定式卡钳

一种便于收放的无人机脚架

一种热熔胶高速喷射阀

一种金属饰面保温装饰一体板折边翻转机构

一种履带式管材的牵引机

一种基于安防的侦查型无人机

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于口型辅助语音识别的数字人交互判别方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务