买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:齐鲁银行股份有限公司
摘要:本发明属于人机交互判别技术领域,具体涉及一种基于口型辅助语音识别的数字人交互判别方法及系统,包括:获取用户的实时语音和口型视频流;识别所获取的语音,得到语音识别置信度和语音识别结果;根据所获取的口型视频流进行用户的口型识别,得到口型识别结果;根据所得到的语音识别置信度、语音识别结果和口型识别结果,识别用户的语音语义;根据所得到的语音语义,判断用户所需办理的业务内容;根据需办理的业务内容,向用户推荐分配业务办理窗口,实现语音识别与业务办理窗口之间的交互联动。
主权项:1.一种基于口型辅助语音识别的数字人交互判别方法,其特征在于,包括:获取用户的实时语音和口型视频流;识别所获取的语音,得到语音识别置信度和语音识别结果;根据所获取的口型视频流进行用户的口型识别,得到口型识别结果;根据所得到的语音识别置信度、语音识别结果和口型识别结果,识别用户的语音语义;根据所得到的语音语义,判断用户所需办理的业务内容;根据需办理的业务内容,向用户推荐分配业务办理窗口,实现语音识别与业务办理窗口之间的交互联动;具体的,利用YOLOv5算法,找到每一帧图像中人脸的嘴部位置,对图像进行预测坐标位置的切割,保证口型位于图像的中间位置;对切割后的图像进行包括去噪、增强和分割操作在内的预处理;对预处理后的图像数据进行特征提取,得到口腔结构的三维模型图像;采用数据增广对三维模型图像进行图像增强;将三维模型输入到DResNeXt与GRU的复合式卷积神经网络中进行训练,通过Yolov5算法处理过的数据传入该网络中,残差结构提取特征,GRU保证时序信息的传递与保存,再通过softmax得到预测的结果;调整网络参数使其能够对图像进行更好的识别,得到口型识别模型;将训练好的口型识别模型应用到整体的数字人应用中,用于辅助判断语音识别结果。
全文数据:
权利要求:
百度查询: 齐鲁银行股份有限公司 一种基于口型辅助语音识别的数字人交互判别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。