首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自进化视频对象信息驱动目标分割框架构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种自进化视频对象信息驱动目标分割框架构建方法,首先提取视觉和语言特征,然后进行语言查询与动态核生成,接下来构建跨模态特征金字塔网络,最后进行实例序列分割处理。本发明通过整合先进的计算机视觉技术和自然语言处理技术,提供了一种从语言描述到视频对象分割的端到端解决方案,不仅提高了处理效率,还增强了分割精度,尤其适用于实时视频分析应用,如智能监控、交互式媒体编辑等。

主权项:1.一种自进化视频对象信息驱动目标分割框架构建方法,其特征在于,包括如下步骤:步骤1:对于视频中的每一帧,使用预训练的卷积神经网络提取视觉特征其中表示第t帧的视觉特征;视觉特征的空间分辨率是H×W,D表示特征通道数,T表示视频帧数,It表示第t帧视频;步骤2:对于文本描述使用语言模型处理每个词el,得到特征向量序列L表示文本句子长度,fi表示第i个词的语言特征;通过对所有词的语言特征进行池化,获得文本描述的语言特征C表示文本特征通道数;步骤3:将视觉特征Fv通过1×1卷积操作降维到和语言特征统一的通道数,将降维后的视觉特征与语言特征fe相乘,形成新的多尺度特征图其中f′t的计算公式为:f′t=Conv1×1ft☉fe1其中,conv1表示1×1卷积操作,⊙表示乘法运算;步骤4:用N表示待查询的实例个数,基于语言特征fe生成一组条件查询Q,条件查询Q用于识别和定位视频中被引用的对象,查询权重在视频帧之间共享,将语言特征fe重复N次以匹配查询数量;将Q和视觉特征Fv一起输入解码器,查询转化为动态核其中Nq=T×N表示总的查询数,用于从相应的特征图中通过动态卷积生成分割掩码,wi表示第i个动态核的权重;步骤5:在解码器之上构建了三个轻量级头部,分别为类别头、掩码头和边框头;进一步转换嵌入实例,类别头用于确定每个实例是否由文本句子引用,掩码头用于生成与每个动态核相关的掩码参数,边框头用于预测每个引用对象的边界框位置;步骤6:构建多层级特征金字塔来进行视频帧的视觉-语言特征融合,对于四层特征图,设置下采样因子为[8,4,2,1];接下来,视觉特征与语言特征通过交叉注意力机制融合,在具有空间步幅为4的特征图上应用额外的3×3卷积层以获得最终的特征图其中表示第t帧图像的最终特征图,Cd表示最终特征图的通道数;视觉特征与语言特征进行融合的公式如下表示: 其中是可学习参数,表示视觉特征的第l层特征,Hl表示第l层特征图高度,Wl表示第l层特征图宽度,fe表示语言特征,C表示编码器的特征通道数,dhead表示编码器头的特征维度;步骤7:动态卷积生成掩码;对于每一帧中的每一个动态核wi和对应的特征图执行卷积操作并获得分割掩码用公式表示如下: 其中表示第i个动态核的特征图;表示卷积操作;步骤8:对于用N个条件查询,生成了包含Nq=T×N预测值的集合,将其视为在T帧上对N个实例的轨迹预测;使用实例匹配策略来监督整个序列中的实例顺序,将预测集表示为第i个实例的预测如下: 其中对于第t次帧,是一个概率标量,用于指示实例是否与所指对象相对应且该对象在当前帧中可见;是归一化的向量,定义了预测框的中心坐标以及高度和宽度;是预测的二进制语义分割掩码;步骤9:总损失函数和若干损失函数如下定义: 其中为匹配成本损失,为分类损失,为边界框损失,为掩码损失,λcls、λbox、λmask分别为分类损失、边界框损失、掩码损失所占的权重,y表示真实值,表示第i个实例在所有帧中的预测值,表示预测边界框与真实边界框b之间的绝对差异;GIoU、Dice、Focal的定义如下: 其中是两个边界框,C是包含的最小闭合区域; 其中分别是真实掩码和预测掩码; 其中αt是平衡因子,γ是调制因子。

全文数据:

权利要求:

百度查询: 西北工业大学 一种自进化视频对象信息驱动目标分割框架构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。