沈阳航空航天大学;中国人民大学张德园获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉沈阳航空航天大学;中国人民大学申请的专利一种基于多模态信息的发言人跟踪方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115131405B 。
龙图腾网通过国家知识产权局官网在2025-07-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210792440.X,技术领域涉及:G06T7/246;该发明授权一种基于多模态信息的发言人跟踪方法及系统是由张德园;刘桃;范胜旭;田健鲲;杜小勇设计研发完成,并于2022-07-07向国家知识产权局提交的专利申请。
本一种基于多模态信息的发言人跟踪方法及系统在说明书摘要公布了:本发明公开了一种基于多模态信息的发言人跟踪方法及系统,涉及发言人跟踪领域。可应用于线下会议或线上会议的在线的发言人跟踪任务,能够快速、准确地定位发言人,给出发言人特写;也可用于在提供的视频中标注出视频每个部分中的发言人的非在线任务。在同一画面出现多个人脸且每个人轮流交替发言的情况下,利用输入的图像及对应的音频信息计算出图像中每个人脸的发言唇动得分、音貌匹配得分以及唇形同步得分,并根据图像中的每个人脸得分定位具体发言人。同时支持提前录入注册配对的人声人脸对,并且支持在使用过程中将配对置信度高的人声人脸对录入到先验数据库中。
本发明授权一种基于多模态信息的发言人跟踪方法及系统在权利要求书中公布了:1.一种基于多模态信息的发言人跟踪系统,其特征在于:所述系统包括:语音的身份信息特征提取模块、语音的内容信息特征提取模块、图像的面貌信息特征提取模块、图像的内容特征提取模块、人脸图像质量计算模块、人脸检测与分组模块、唇形同步模块、说话唇动识别模块、音貌匹配模块及先验数据库; 采用语音的身份信息特征提取模块,对输入的音频提取得到语音身份信息特征向量; 采用语音的内容信息特征提取模块,对输入的音频提取得到语音内容信息特征向量; 采用图像的面貌信息特征提取模块,依次将r张输入图像…提取得到逐帧人脸面貌特征向量,并将每张图像输入到人脸图像质量计算模块中,计算得到每张输入图像质量得分,将r张图像的质量得分与r个逐帧人脸面貌特征向量在通道维度上进行拼接,提取得到人脸面貌特征向量; 采用图像的内容特征提取模块,将r张输入图像在时间维度上进行拼接,得到拼接后的图像拼接向量;将每张输入图像单独输入到人脸图像质量计算模块,得到每张输入图像质量得分,将每张输入图像的质量得分复制扩展后与图像拼接向量进行拼接和特征提取,得到人脸唇部内容特征向量; 人脸图像质量计算模块,将单张彩色人脸图像输入到卷积神经网络,得到图像质量得分; 人脸检测与分组模块,逐帧检测视频片段中的人脸,给出每个人脸的矩阵信息,将属于同一个人的人脸矩阵分为一组,并对缺失人脸信息的帧进行人脸信息补全,得到完整的人脸矩阵序列; 唇形同步模块,输入人脸唇部内容特征向量与语音内容信息特征向量,利用余弦相似度计算两个特征向量的相似度,得到唇形同步得分; 说话唇动识别模块,将人脸唇部内容特征向量输入到一个或多个具有激活函数的全连接层后,再输入到带有Sigmoid激活函数的全连接层,得到说话唇动得分; 音貌匹配模块,输入人脸面貌信息特征向量与语音身份信息特征向量,利用L1距离计算两个特征向量的距离,得到音貌匹配得分; 先验数据库,支持提前录入先验数据库及在使用中录入先验数据库,在发言人跟踪过程中优先使用先验数据库进行匹配,具体为: 根据唇形同步、音貌匹配、说话唇动检测模块找到了匹配的语音身份信息特征向量与人脸面貌信息特征向量时,将匹配得分高于录入阈值的向量对保存进先验数据库中; 基于多模态信息的发言人跟踪系统采用以下方法实现发言人跟踪,包括以下步骤: S1:获取音频和视频,分别利用音频采集设备和视频采集设备获取t时刻到t+s时刻的音频片段和视频片段; S2:人声判断与语音特征提取,判断所述音频片段中是否包含人声;若未包含人声,则判断t时刻到t+s时刻没有人发言,进入S9;若包含人声,将所述音频片段输入到语音的身份信息特征提取模块,得到语音身份信息特征向量;并将所述音频片段输入到语音的内容信息特征提取模块,得到语音内容信息特征向量; S3:人脸图像序列提取,将所述视频片段逐帧输入到人脸检测与分组模块,得到人脸图像序列; S4:图像特征提取,将人脸图像序列输入到人脸图像质量计算模块,得到每一帧人脸图像所对应的图像质量得分,将与输入到图像的面貌信息特征提取模块,得到人脸面貌特征向量序列;将与输入到图像的内容特征提取模块,得到人脸唇部内容特征向量; S5:检索先验数据库中所有已录入的语音身份信息特征向量,判断是否有与语音身份信息特征向量相似的录入人声; 若存在与相似的录入人声向量,则进入S6; 若不存在与语音身份信息特征向量相似的录入人声,则进入S7; S6:取出与对应的目标人脸面貌特征向量,在给定图像中的面貌信息特征向量候选序列中寻找是否有相似度高于匹配阈值的特征向量,若有,则将对应的人脸矩阵序列信息标记输出,若没有,则判断当前画面中没有和对应人声符合的人脸,进入S9; S7:依次将图像中第i个人的与配对输入到唇形同步模块中得到唇形同步得分;将与输入到音貌匹配模块中计算得到音貌匹配得分;将输入到说话唇动识别模块中计算得到说话唇动得分; 综合唇形同步得分、音貌匹配得分以及说话唇动得分,赋权计算得到最终得分;比较最终得分与识别阈值,若每个人的人脸图像序列的得分都低于识别阈值,则判断为没有和人声符合的人脸,进入S9;若只有一个或有多个人的人脸图像序列的得分高于识别阈值,则将得分最高者记为当前发言人; S8:若当前发言人的最终得分高于录入阈值,则将当前发言人对应的与登记到先验数据库中; S9:t=t+s,返回步骤S1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人沈阳航空航天大学;中国人民大学,其通讯地址为:110136 辽宁省沈阳市道义经济开发区道义南大街37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。