博大视野(厦门)科技有限公司吴南海获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉博大视野(厦门)科技有限公司申请的专利基于特征追踪的音视频流多模态异常检测方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120259688B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510734076.5,技术领域涉及:G06V10/46;该发明授权基于特征追踪的音视频流多模态异常检测方法及系统是由吴南海;颜意民;陈玉明;翁渊彬;田设金;王传智设计研发完成,并于2025-06-04向国家知识产权局提交的专利申请。
本基于特征追踪的音视频流多模态异常检测方法及系统在说明书摘要公布了:本发明属于音视频处理技术领域,公开了一种基于智能特征追踪的音视频流多模态实时异常检测方法及系统,包括:通过灰度图转换、特征点提取与全局对齐,精准匹配当前帧与历史帧,结合特征点位移和局部灰度差异判断异常特征点,能有效捕捉视频中细微变化。基于动态阈值,结合异常、消失和新增特征点数量判断视频异常,增强了检测的适应性和准确性。同时设定采样参数并进行分帧、STFT处理,利用梅尔滤波器组提取对数梅尔频谱图,通过能量比、频谱中心差值和Frobenius范数差异多指标对比,全面分析音频异常。音视频多模态结合,从不同维度综合判断,提升了异常检测的全面性和可靠性,适用于实时监控等场景。
本发明授权基于特征追踪的音视频流多模态异常检测方法及系统在权利要求书中公布了:1.基于特征追踪的音视频流多模态异常检测方法,其特征在于,包括: 采集并存储音视频流数据,并选取当前帧的视频流数据和所存储的任一历史帧视频流数据进行转换,获取灰度图; 对当前帧视频流数据和历史帧视频流数据所对应的灰度图分别进行特征点提取,并对历史帧视频流数据对应的灰度图及特征点进行全局对齐,进而匹配当前帧和全局对齐后的历史帧图像; 在当前帧和对齐后的历史帧图像中提取局部区域,基于不同时刻下特征点的位移和局部区域的平均灰度差异,判断每个特征点是否为异常特征点; 所述不同时刻下特征点的位移为: di=||Δpi||; 其中,Δpi为不同时刻下特征点的位移值,di为Δpi的绝对值;表示第i个特征点在当前时刻t的位置;表示第i个特征点在当前时刻t-k的位置; 为消除不同设备视场及图像尺寸的影响,对不同时刻下特征点的位移进行归一化,具体为: 其中,Dmax取图像对角线长度或根据设备视场设定的上界;为特征点的归一化值; 对于每个特征点,在当前帧和对齐后的历史帧中提取大小为V×V的局部Patch,对灰度值归一化到[0,1]后进行计算: 其中,Di表示该局部区域的平均灰度差异;表示以当前帧t的第i个特征点为中心的邻域图像帧,表示以历史帧t-k的第i个特征点为中心的邻域图像帧;表示两个图像帧差值向量的范数; 对于每个特征点pi是否为异常特征点进行判断,当归一化后的特征点的位移值大于位移异常阈值时,或局部区域的平均灰度差异大于局部差异阈值时,当前特征点为异常特征点,具体为: 其中,θd为位移异常阈值,θp为局部差异阈值;Ai表示异常特征点标志位,Ai为1时,则为异常点,Ai为0时,则为非异常点; 基于异常特征点的数量、消失特征点和新增特征点的总和与预设的动态阈值的关系,判断所选取的视频流数据是否异常; 统计异常特征点的数量,具体为: 其中,为异常特征点数量;r为总的特征采样点数目; 综合总异常数,具体为: 其中,Nabn为综合总异常数,Ndisappeared为消失特征点数量,即在历史帧存在但当前帧中未匹配到的特征点数量;Nnew为新增特征点数量,即当前帧中出现但在历史帧中不存在的特征点数量; 将所获取的综合总异常数与预设的动态阈值进行对比,当综合总异常数大于预设的动态阈值时,则判定所选取的视频流数据是否异常; 预设的动态阈值为θnt=α2·M+β2; 其中,M为当前帧所有特征点总数;α2表示在当前场景单个特征点被误判为异常的概率;β2为补偿系数; 设定音频采样参数,提取所选取的音视频流数据中的音频数据; 对音频数据进行分帧、STFT处理得到音频频谱,并借助梅尔滤波器组提取并转换为对数梅尔频谱图; 基于设定的时间间隔m,获取当前音频段与前m秒音频段的能量比指标和频谱中心差值;并基于对数梅尔频谱图,获取对数梅尔频谱图的Frobenius范数差异; 所述当前音频段与前m秒音频段的能量比指标,具体为: 所述当前音频段的均方根能量为: 其中,N为采样数据的个数;为第t秒中第c个声音数据采样点的数值; 当前段的均方根能量Et与前段均方根能量Et-m的比值为 其中,ε是正数常量,用于避免分母为零; 音频进行FFT得到频谱Stf,计算频谱中心,具体为: 其中,Stf表示在时刻t的音频信号经FFT得到的频谱值;f为频率变量,F为频率集合; 当前音频段与前m秒音频段的频谱中心差值为: ΔC=|Ct-Ct-m|; 其中,Ct为t时刻的频谱中心,Ct-m为t-m时刻的频谱中心,t-m为t时刻前m秒; 所述基于对数梅尔频谱图,获取对数梅尔频谱图的Frobenius范数差异,具体为: 当前时间t和前m秒之间的对数梅尔频谱图Frobenius范数差异是DSt,t-m,表示为 DSt,t-m=||logSt-logSt-m||F; 其中,logSt为当前时间t的对数梅尔频谱图,logSt-m为前m秒的对数梅尔频谱图; 分别将能量比指标、频谱中心差值和Frobenius范数差异与预设的能量比阈值、频谱中心差值阈值和Frobenius范数差异阈值进行对比,判断所提取的音频是否异常声音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人博大视野(厦门)科技有限公司,其通讯地址为:361008 福建省厦门市火炬高新区软件园二期观日路48号202室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励