多模态说话人身份识别方法、装置和设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：科大讯飞股份有限公司

摘要：本发明公开一种多模态说话人身份识别方法、装置和设备，该方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别。本申请能够在复杂多样的会话场景下提高说话人身份识别的准确性。

主权项：1.一种多模态说话人身份识别方法，其特征在于，所述方法包括：获取会话场景的视频数据和音频数据；对所述视频数据进行人脸检测和唇形检测，得到参会人的子视频数据和所述子视频数据中的人脸框数据和唇形框序列；根据所述参会人的所述唇形框序列和所述音频数据，确定所有参会人中的说话人和所述说话人对应的音频数据；根据所述说话人的所述人脸框数据提取所述说话人的视觉特征，并根据所述说话人对应的音频数据提取所述说话人的音频特征；根据所述视觉特征和所述音频特征对所述说话人进行身份识别；其中，所述根据所述视觉特征和所述音频特征对所述说话人进行身份识别，包括：将所述视觉特征与第一数据库中的特征进行匹配，得到与所述视觉特征匹配的前N个身份标识以及与每个所述身份标识对应的视觉相似度，其中N为自然数，且N大于或等于1；将所述音频特征与第二数据库中的特征进行匹配，得到与所述音频特征匹配的前N个身份标识以及与每个所述身份标识对应的音频相似度，其中N为自然数，且N大于或等于1；当与所述视觉特征匹配的前N个身份标识和与所述音频特征匹配的前N个身份标识中存在相同的身份标识时，对于所述相同的身份标识中的每个身份标识，计算与所述身份标识对应的视觉相似度和音频相似度的加权平均值，并将所述相同的身份标识中具有最大所述加权平均值的身份标识确定为所述说话人的身份识别结果；当与所述视觉特征匹配的前N个身份标识和与所述音频特征匹配的前N个身份标识中不存在相同的身份标识时，确定所述视觉相似度和所述音频相似度中的最大值，并将所述最大值对应的身份标识确定为所述说话人的身份识别结果。

全文数据：

权利要求：

百度查询：科大讯飞股份有限公司多模态说话人身份识别方法、装置和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电动汽车无线充电系统漏磁优化方法

下一篇：碳化硅半导体装置及其制造方法

相关技术

一种电动汽车无线充电系统漏磁优化方法

碳化硅半导体装置及其制造方法

新能源多场站柔性直流外送系统强度评估方法、装置

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

一种基于数字密钥的电子公文管理系统及方法

电池、用电设备、制备电池的方法和设备

设备健康预测方法和计算机可读存储介质

基于海洋渔业价值链的海产品汞金属总量核算方法和装置

一种汽车电子设备和菊花链通信的超时复位系统

信息展示方法及电子设备

用于确定泡沫生产的参数的系统和方法

监控视频的轮巡控制方法、装置、设备及存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

多模态说话人身份识别方法、装置和设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务