宁波蛙声科技有限公司辛鑫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉宁波蛙声科技有限公司申请的专利基于音视频联合的发言人实时追踪定位方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120412649B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510907238.0,技术领域涉及:G10L25/51;该发明授权基于音视频联合的发言人实时追踪定位方法及系统是由辛鑫;吕城栋设计研发完成,并于2025-07-02向国家知识产权局提交的专利申请。
本基于音视频联合的发言人实时追踪定位方法及系统在说明书摘要公布了:本申请涉及发言人定位技术领域,具体涉及基于音视频联合的发言人实时追踪定位方法及系统,该方法包括:基于每个音频帧在频域中不同频率处的幅值分布,并结合所有混响声帧在所有直达声帧中的占比,确定每个音频帧的综合特征值;通过分析当前发言人与历史发言人之间所有音频帧的音频特征向量的相似度,以确定当前发言人的方向角;获取当前发言人的方向角所在预设拍摄角度区间的摄像机中的视频数据,对当前发言人进行追踪定位。本申请解决了传统基于到达时间差的声源测向方法对发言人定位准确性和实时性低的问题,提高了对发言人实时追踪定位的准确性和实时性。
本发明授权基于音视频联合的发言人实时追踪定位方法及系统在权利要求书中公布了:1.基于音视频联合的发言人实时追踪定位方法,其特征在于,该方法包括以下步骤: 获取发言人开始讲话之前的音频信号,并将音频信号划分为多个音频帧; 综合每个音频帧中所有音频数据,确定每个音频帧的短时能量,以将所有音频帧划分为混响声帧和直达声帧;基于每个音频帧在频域中不同频率处的幅值分布,确定每个音频帧的分布特征值,并结合所有混响声帧在所有直达声帧中的占比,确定每个音频帧的综合特征值; 基于每个音频帧的信息分布,确定每个音频帧的所有声纹系数,将每个音频帧的短时能量,综合特征值以及所有声纹系数,组成发言人每个音频帧的音频特征向量;通过分析当前发言人与历史发言人之间所有音频帧的音频特征向量的相似度,确定当前发言人与历史发言人之间的匹配度,以确定当前发言人的方向角; 获取当前发言人的方向角所在预设拍摄角度区间的摄像机中的视频数据,标注视频数据中所有与会者的面部关键点,对当前发言人进行追踪定位; 所述每个音频帧的分布特征值的确定方法为: 将每个音频帧的频域信号的所有幅值作为阈值分割算法的输入,输出分割阈值,将分割阈值对应的频率,作为分割频率; 将每个音频帧的频域信号中分割频率之前的所有幅值平方的累加和,作为低频能量,将频域信号中分割频率之后的所有幅值平方的累加和,作为高频能量,将高频能量与低频能量的比值,作为每个音频帧的分布特征值; 所述每个音频帧的综合特征值的表达式为:;式中,表示音频帧i的综合特征值;、分别表示音频信号中所有混响声帧的数量、所有直达声帧的数量;表示音频帧i的分布特征值;exp表示以自然常数为底数的指数函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人宁波蛙声科技有限公司,其通讯地址为:315000 浙江省宁波市海曙区灵桥路229号(3-314);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。