一种基于可见光引导的多注意力RGBT目标跟踪方法

导航：龙图腾网> 最新专利技术> 一种基于可见光引导的多注意力RGBT目标跟踪方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学

摘要：本发明属于扩展目标跟踪技术领域，具体涉及一种基于可见光引导的多注意力RGBT目标跟踪方法。本发明提出了非对称可见光引导的双向融合网络，利用可见光特征丰富红外特征的信息，引导两个模态的融合，完成模态的交互，减少目标跟踪任务精度的损失。此外为了使目标跟踪网络具有尺度感知和空间感知的能力，设计了基于目标关注的串联多角度动态模块，关注目标的大小变化、边缘模糊等问题，完成尺度感知和空间感知任务。然后采用Transformer对模板图像和搜索图像的特征进行相关性计算，对模板特征和搜索特征进行全局关联。最后通过分类回归组合对目标的位置和目标的大小进行预测。

主权项：1.一种基于可见光引导的多注意力RGBT目标跟踪方法，其特征在于，包括以下步骤：S1、数据预处理：从视频数据中筛选出匹配的可见光-红外视频对，并将视频按照同一帧率保存为图像对；手动选取视频第一帧的目标，将需要跟踪的目标用矩形框进行框选，将输入的图像对样本记为M＝Mv,Mt，v表示可见光图像，t表示红外图像；可见光图像Mv和红外图像Mt均由图像对构成，图像对为模板图像Z和搜索图像X；在每个模态的图像对Z,X中，模板图像搜索图像其中HZ,WZ和HX,WX是原始图像的分辨率，裁剪图片保留目标框周围的背景信息；定义包含上下文信息的像素为p＝w+h4，模板图像包含目标两倍的上下文信息：w′＝w+2ph′＝h+2p因此图像裁剪之后得到新的样本：Mtrain_new＝Mv,Mtnew，Mtrain_new的大小为w′×h′；为了要适应主干网络的输入大小，将Mtrain_new缩放到相应大小A：a×w′×h′＝AA表示模板图像的输入大小128×128或者搜索图像的输入大小256×256；S2、构建神经网络，包括特征提取主干网络和非对称可见光引导的双向融合网络、尺度感知和空间感知网络、交互网络以及跟踪网络：预处理后的数据送入主干网络同时提取特征，采用残差网络作为主干网络提取图像特征；所述残差网络对传统残差网络的五层结构进行了修改，去掉了残差网络最后一层，并将残差网络第四阶段的下采样率从2修改为1，此外，第四层也就是瓶颈层3采用了步长为2的扩展卷积来增加感受野，取可见光图像和红外图像的最后三层深度特征，用于后续进一步处理和融合；主干最后三层的输出为其中，Res表示残差网络最后三层的输出，的每一层包含了两个模态经过非对称可见光引导的双向融合模块之后的输出：其中非对称可见光引导的双向融合网络通过可见光图像特征中的纹理信息来弥补红外特征，改进其尺度信息，具体为：首先，将可见光特征和红外特征进行级联，得到di：其中，和是主干网络后三层的输出；然后采用3条平行的结构来提取特征图的不同注意力权重描述符，其中两个分支经过了1×1的卷积块，另一个分支经过了一个3×3的卷积块，对跨信道信息进行建模，1×1卷积块不对特征进行降维；在将1×1卷积的输出分解为两个向量后，使用两个非线性的Sigmoid函数来拟合线性卷积上的二维二项分布： Attni＝conv1×1catXi,Yi 其中，Avgh和Avgw表示在维度w和h上的自适应平均池化，conv1×1表示采用了1×1的卷积，Split表示特征分割；然后，对每组特征进行全局池化并采用乘法聚合每组中的通道注意力，从而扩大特征空间，捕捉局部的跨空间交互：b1,i＝SoftAvgconv3×3catXi,Yi·conv3×3catXi,Yib2,i＝SoftAvgGNcatX1,i,Y1,i·GNcatX1,i,Y1,iouti＝Sigb1,i+b2,i其中，conv3×3表示采用了3×3的卷积，Avg表示在各个方向上的自适应平均池化，GN表示分组归一化，Soft表示归一化指数函数，Sig表示Sigmoid激活函数；最后，对两个模态采用级联的方式进行模态融合；所述尺度感知和空间感知网络通过非对称可见光引导的双向融合模块更新残差网络中最后三层的输出为每一层经过融合模块之后，得到了融合特征以第3层特征为标准，对第2层特征进行下采样，对第4层特征进行上采样，使其特征大小保持一致；将这三个特征进行拼接，用一个四维张量进行表示得到了基于目标关注的串联多角度动态模块的输入，进一步将四维张量重塑为三维张量，令N＝H×W，那么采用串联的方式，将全连接层结合得到的一个注意力转换为三个注意力，每个注意力仅仅关注一个角度，如下式所示：lout＝wswclin·lin·lin其中，ws自适应空间感知模块，wc表示自适应尺度感知模块；所述自适应尺度感知模块，首先采用了全局池化获取特征图的最大值，然后通过卷积将所有通道整合到一起，最后采用激活函数作非线性映射：其中，conv1×1表示1×1的卷积，σ表示硬Sigmoid激活函数，σ＝0,min1,x+12；自适应空间感知模块采用可变卷积来学习位置之间的关系，可变卷积引入了偏移量的学习，通过改变偏移量可以改变感受野的形状，适应各种形状的目标，并且针对每个偏移量引入了权重系数，用于判断该区域是否是关注区域；为了得到对目标空间的注意力权重，使用Sigmoid激活函数进行非线性映射，通过这种方式根据权重系数来建模出对目标的关注程度，进而实现自适应的空间感知；所述交互网络将经过融合和多角度自适应之后的四维特征lt,out,ls,out，展开为三维特征将该三维特征送入Transformer的编码器中，通过自注意力对每个分支的特征进行自增强；然后利用解码器中的注意力对不同分支进行交互，融合不同分支的信息；最后通过一个单独的解码器，将两个分支的信息进行融合，完成交互过程；编码器首先引入了一个位置编码，获取每个特征块的位置信息，然后采用了多头注意力，捕捉不同位置图片之间的多重关系和细微差别： Hi＝AttentionQWiQ,KWiK,VWiVMultiHead＝catH1,……，HnhW0其中，dk是归一化后的注意力维度，WiQ,WiK,WiV,W0是四个可学习的参数；最后以一个残差模式的跳层连接得到输出：len＝lin+MultiHeadlin+Px,lin+Px,lin其中，lin表示编码器的输入，Px表示位置编码；解码器采用了多头注意力机制，因此引入一个位置编码来获取位置信息，并使用残差结构来得到第一阶段的输出，与编码器不同的是，解码器采用了一个前馈模块FFN，增强模型的拟合能力：FFNx＝max0,xW1+b1W2+b2其中，FFN表示前馈模块，W和b表示权重矩阵和基向量；解码器的输出表示为：lde＝len+MultiHeadlen+Pen,len+Pen,lenlde＝lde+FFNlde所述跟踪网络采用分类回归来进行跟踪，设定在目标框内的像素为预测的正样本，其余像素为预测的负样本，所有样本均对分类损失有贡献，但是只有正样本对回归损失有贡献；分类损失采用交叉熵损失：其中，yt表示第t个样本的真实标签，yt＝1表示前景；mt表示前景的概率；对于回归，结合了L1损失和giou损失来对目标框进行预测：Lreg＝λL1L1Bi,Bi+λgiouLgiouBi,Bi其中，λL1和λgiou是两个损失在回归中的权重，Bi表示真实的目标框标签，而Bi表示预测的目标框的标签；S3:对构建的神经网络进行训练：输入的数据为图像对M＝Mv,Mt，将数据划分为主干网络的输入：Xv,Xt和Zv,Zt。加载已有的在大型数据集预训练的模型的参数，通过步骤S2的四个网络来最终计算得到损失函数，通过损失函数反向传播来修正网络的权重，直至网络收敛；S4、采用训练好的网络对监控视频进行跟踪：选取需要跟踪的目标，生成第一帧图像的标签，将含有标签的图像序列首先输主干网络对不同模态的图像进行特征提取，并且经过非对称可见光引导的双向融合网络对两个模态的特征进行融合，完成模态的交互；然后通过尺度感知和空间感知网络，关注目标的大小变化、边缘模糊问题，对特征图进行相关性计算，分类得到目标中心的位置，回归得到目标的大小。

全文数据：

权利要求：

百度查询：电子科技大学一种基于可见光引导的多注意力RGBT目标跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：复合结构体、叶片

下一篇：半导体结构及半导体结构制作方法

相关技术

复合结构体、叶片

半导体结构及半导体结构制作方法

一种基于互联网的工业设备租赁计费管理系统

基于二级控制框架的海上风力发电场储能电站控制方法

一种页面渲染的方法、装置、电子设备及存储介质

控制移动终端的集成电路和控制基站的集成电路

电动汽车充电站的功率预测数据增强方法及功率预测方法

基于kafka的信息推送方法、装置、设备及存储介质

密闭自洁储备补偿供水设备、系统及使用方法

一种可变形更换照射模式的智慧路灯

近地空间星群电离层等离子体环境量化表征方法

一种微波液氮协同真三轴孔内冷热冲击试验装置及方法

注意力相关技术

一种基于图注意力网络的专利抄袭判定方法_广东财经大学_202411118820.0

基于多头注意力机制的大规模车辆路径规划方法_重庆大学_202410897691.3

基于内容引导注意力的ENSO预测方法和模型_中国海洋大学_202410976951.6

一种基于特征融合与注意力机制的红外目标检测方法_中国电子科技集团公司第五十四研究所_202210241296.0

基于增强注意力双路径卷积循环网络的语音增强方法及设备_东南大学_202411055465.7

基于DeepFM和注意力机制的知识图谱图书推荐方法及系统_上海应用技术大学_202411014924.7

基于原始电流和注意力模型的Nanopore测序数据纠错方法_浙江理工大学_202411013200.0

一种基于多模态图注意力模型的NFT推荐方法_浙江大学_202411006990.X

一种基于空间分布注意力的船舶实例分割方法_哈尔滨工程大学_202210304835.0

基于跨层连接注意力的语音识别网络、方法、设备及介质_珠海亿智电子科技有限公司_202111577740.8

目标相关技术

一种三维目标检测中针对静态目标的优化方法_之江实验室_202110642915.2

一种弱监督目标检测方法及系统_西安电子科技大学_202210302852.0

一种外墙裂纹目标检测方法及系统_广东大沥建筑工程有限公司_202410902682.9

一种多气道军用充气假目标_泰州市华润纺织品有限公司_202420702638.9

一种红外小目标检测方法及系统_安徽大学_202310814159.6

一种假目标红外辐射装置_泰州市华润纺织品有限公司_202420702100.8

一种目标物位置数据的获取方法_中航信移动科技有限公司_202310439895.8

辨识太阳能储能目标的方法_苏州伯万呈科技有限公司_202410902492.7

一种自动目标跟踪方法及装置_中国人民解放军海军航空大学_202211059934.3

目标对象的跌倒检测方法及装置_北京清雷科技有限公司_202210043513.5

RGBT相关技术

一种基于孪生结构和Transformer特征融合的RGBT目标跟踪方法_广东工业大学_202410677884.8

一种基于可见光引导的多注意力RGBT目标跟踪方法_电子科技大学_202410480156.8

一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统_安徽大学_202111144930.0

一种基于跨模态特征自增强与逐级融合的RGBT目标跟踪方法_广东朗翼智能科技有限公司_202410072551.2

一种跨模态上下文感知网络的RGBT人群计数方法_中航华东光电(上海)有限公司_202410202421.6

基于多阶段注意力机制的RGBT无人机目标跟踪方法及系统_中国人民解放军军事科学院国防科技创新研究院_202310035520.5

基于特征增强融合的RGBT实时目标跟踪方法和装置_中国人民解放军国防科技大学_202311442820.1

一种基于协同低秩图模型的RGBT目标跟踪方法及系统_安徽大学_202110987298.X

一种基于目标感知增强融合结构的RGBT目标跟踪方法_常熟理工学院_202311824466.9

一种基于运动模型和外观模型的RGBT目标跟踪方法_电子科技大学_202311246375.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于可见光引导的多注意力RGBT目标跟踪方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务