一种自进化视频对象信息驱动目标分割框架构建方法

导航：龙图腾网> 最新专利技术> 一种自进化视频对象信息驱动目标分割框架构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明公开了一种自进化视频对象信息驱动目标分割框架构建方法，首先提取视觉和语言特征，然后进行语言查询与动态核生成，接下来构建跨模态特征金字塔网络，最后进行实例序列分割处理。本发明通过整合先进的计算机视觉技术和自然语言处理技术，提供了一种从语言描述到视频对象分割的端到端解决方案，不仅提高了处理效率，还增强了分割精度，尤其适用于实时视频分析应用，如智能监控、交互式媒体编辑等。

主权项：1.一种自进化视频对象信息驱动目标分割框架构建方法，其特征在于，包括如下步骤：步骤1：对于视频中的每一帧，使用预训练的卷积神经网络提取视觉特征其中表示第t帧的视觉特征；视觉特征的空间分辨率是H×W，D表示特征通道数，T表示视频帧数，It表示第t帧视频；步骤2：对于文本描述使用语言模型处理每个词el，得到特征向量序列L表示文本句子长度，fi表示第i个词的语言特征；通过对所有词的语言特征进行池化，获得文本描述的语言特征C表示文本特征通道数；步骤3：将视觉特征Fv通过1×1卷积操作降维到和语言特征统一的通道数，将降维后的视觉特征与语言特征fe相乘，形成新的多尺度特征图其中f′t的计算公式为：f′t＝Conv1×1ft☉fe1其中，conv1表示1×1卷积操作，⊙表示乘法运算；步骤4：用N表示待查询的实例个数，基于语言特征fe生成一组条件查询Q，条件查询Q用于识别和定位视频中被引用的对象，查询权重在视频帧之间共享，将语言特征fe重复N次以匹配查询数量；将Q和视觉特征Fv一起输入解码器，查询转化为动态核其中Nq＝T×N表示总的查询数，用于从相应的特征图中通过动态卷积生成分割掩码，wi表示第i个动态核的权重；步骤5：在解码器之上构建了三个轻量级头部，分别为类别头、掩码头和边框头；进一步转换嵌入实例，类别头用于确定每个实例是否由文本句子引用，掩码头用于生成与每个动态核相关的掩码参数，边框头用于预测每个引用对象的边界框位置；步骤6：构建多层级特征金字塔来进行视频帧的视觉-语言特征融合，对于四层特征图，设置下采样因子为[8,4,2,1]；接下来，视觉特征与语言特征通过交叉注意力机制融合，在具有空间步幅为4的特征图上应用额外的3×3卷积层以获得最终的特征图其中表示第t帧图像的最终特征图，Cd表示最终特征图的通道数；视觉特征与语言特征进行融合的公式如下表示：其中是可学习参数，表示视觉特征的第l层特征，Hl表示第l层特征图高度，Wl表示第l层特征图宽度，fe表示语言特征，C表示编码器的特征通道数，dhead表示编码器头的特征维度；步骤7：动态卷积生成掩码；对于每一帧中的每一个动态核wi和对应的特征图执行卷积操作并获得分割掩码用公式表示如下：其中表示第i个动态核的特征图；表示卷积操作；步骤8：对于用N个条件查询，生成了包含Nq＝T×N预测值的集合，将其视为在T帧上对N个实例的轨迹预测；使用实例匹配策略来监督整个序列中的实例顺序，将预测集表示为第i个实例的预测如下：其中对于第t次帧，是一个概率标量，用于指示实例是否与所指对象相对应且该对象在当前帧中可见；是归一化的向量，定义了预测框的中心坐标以及高度和宽度；是预测的二进制语义分割掩码；步骤9：总损失函数和若干损失函数如下定义: 其中为匹配成本损失，为分类损失，为边界框损失，为掩码损失，λcls、λbox、λmask分别为分类损失、边界框损失、掩码损失所占的权重，y表示真实值，表示第i个实例在所有帧中的预测值，表示预测边界框与真实边界框b之间的绝对差异；GIoU、Dice、Focal的定义如下：其中是两个边界框，C是包含的最小闭合区域；其中分别是真实掩码和预测掩码；其中αt是平衡因子，γ是调制因子。

全文数据：

权利要求：

百度查询：西北工业大学一种自进化视频对象信息驱动目标分割框架构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种压力容器主管道封盖拆除的简易工装

下一篇：一种便于调节的铝制品加工用吸板固定机构

相关技术

一种压力容器主管道封盖拆除的简易工装

一种便于调节的铝制品加工用吸板固定机构

一种内置限位模块的PET塑料内托

一种高精度工业废气自动监测装置

一种可调节的建筑工程用测量设备

公路车放置架

一种展示单元架

一种食品加工的圆盘冷却架

一种防位移的接线插拔式继电器

一种四合一冲锋衣

一种具有降噪功能的暖通设备室外机

防窃电计量箱

驱动相关技术

多模式驱动结构、多模式驱动总成和车辆_清华大学_202411069977.9

有源驱动电路及其驱动方法、微流控装置_惠科股份有限公司_202410773503.6

栅极驱动电路及其驱动方法和显示面板_惠科股份有限公司_202410703319.4

像素驱动电路_广州华星光电半导体显示技术有限公司_202311284898.5

卷帘驱动装置_东莞市雷富溢窗饰科技有限公司_202322913433.3

镜头驱动机构_河南皓泽电子股份有限公司_202110153401.0

正驱动打包输送系统_迪尔公司_202410801620.9

显示面板及其驱动方法_昆山国显光电有限公司_202310928440.2

伺服驱动跟踪灌装系统_圣灌制药机械设备(苏州)有限公司_201910715326.5

显示面板及其驱动方法_昆山国显光电有限公司_202310797864.X

目标相关技术

目标检测模型的训练方法、目标检测方法及装置_马上消费金融股份有限公司_202410188128.9

目标检测方法、目标检测模型训练方法、装置及相关设备_科大讯飞股份有限公司_202411040055.5

一种基于改进3D目标检测器PointPillars的目标点云检测方法_南京师范大学_202411149424.4

目标对象身份识别方法、装置和系统_中国电信股份有限公司_202010710324.X

目标检测方法、装置、电子设备及存储介质_北京海天瑞声科技股份有限公司_202411149106.8

一种在线目标检测模型构建方法_上海悠络客电子科技股份有限公司_202111527053.5

用于目标检测的图像智能标注系统、方法_广东朝歌智慧互联科技有限公司_202410798169.X

基于双目相机的捕获目标的方法_深圳市中图仪器股份有限公司_202310667438.4

一种高精度运动目标追踪装置_福州大学_202421840755.8

用于晶片对准的系统、方法及目标_科磊股份有限公司_202180032730.8

分割相关技术

全极化SAR图像分割网络模型、分割方法及训练方法_中国科学院空天信息创新研究院_202411134201.0

基于人工智能的图像分割模型训练方法、分割方法及设备_湖南工商大学_202410814007.0

图像分割模型的训练方法、图像分割方法及系统_山东建筑大学_202411132090.X

低光照语义分割模型训练方法、语义分割方法及装置_南京邮电大学_202110940177.X

视频动作分割与评估方法_北京邮电大学_202410128441.3

一种合同文档分割方法及系统_上海甄零科技有限公司_202411133429.8

血管图像分割方法、装置、设备和介质_上海卓昕医疗科技有限公司_202410810581.9

基于改进TransFuse的结肠息肉图像分割方法_西安工程大学_202410778194.1

一种圆木分割用固定装置_泗县军明木业有限公司_202322918069.X

基于区域与边界协作的医学图像分割方法_呼伦贝尔学院_202410807455.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种自进化视频对象信息驱动目标分割框架构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务