买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司
摘要:本发明属于机器学习、视觉目标跟踪领域,提供了一种基于条件化早退机制的动态推理路径目标跟踪方法。本发明的目标跟踪器使用MAE预训练的ViT结构作为特征提取主干,同时在不同的编码器层设置多个早退决策点,用于动态路径推理,在保证跟踪结果高准确性的同时,为不同的视频帧动态选择不同的推理路径,大大节省了在简单样本帧上推理的计算量,提高了跟踪方法的实际速度。另外,本发明可以部署在不同算力的设备上,只需要训练一次,之后的实际部署可以根据场景边缘设备的算力等条件灵活设置决策边界以满足实际应用中对算法性能和速度的权衡。
主权项:1.一种基于条件化早退机制的动态推理路径目标跟踪方法,其特征在于,步骤如下:步骤1:借助成像设备获得需要处理的连续视频流;步骤2:输入连续视频流,同时在视频初始帧中指定待跟踪的初始目标;用向量B0表示初始目标所在的位置和大小: 其中,是初始目标中心点所在的位置,h0,w0是初始目标的尺度;步骤3:根据指定的待跟踪的初始目标,生成模板区域,模板区域是初始目标边界框的一个向外扩展区域,其中心位置不变,尺度为γtem倍的初始目标尺度h0,w0的几何平均数;同时,以给定的初始目标为根据,生成待跟踪帧的搜索区域;根据目标运动轨迹的连续性,搜索区域的中心位置与上一帧的目标中心位置一致;若上一帧是初始帧,中心位置即为初始帧指定的目标中心位置;搜索区域的尺度为γsea倍的上一帧目标尺度的几何平均数;步骤4:通过transformer的编码器层提取模板区域和搜索区域的深度特征;Transformer的编码器层取自ViT模型,单个transfomer编码层主要由多头注意力模块、层归一化、前馈网络和残差连接组成;多头注意力模块接收维度为768的token输入,先计算出是三个新的矩阵:Query、Key、Value;三个新的矩阵是用输入token与一个随机初始化的矩阵相乘得到的;Query矩阵和Key矩阵相乘,乘以一个缩放常数,再做softmax操作,最后乘以Value矩阵得到自注意力结果;多头注意力机制对上述求自注意力的过程拆分为12次,之后将所有的自注意力结果拼接起来作为多头注意力模块的输出;前馈网络主要由一个全连接层、GELU激活函数、Dropout层、全连接层和Dropout层依次连接组成;Transformer的编码器层提取模板区域和搜索区域特征包括以下步骤:4.1输入端处理:将模板区域和搜索区域的图像块进行变换,使图像尺寸与网络输入尺寸一致;4.2图像块经过Embedding层,生成token序列;Embedding层采用768个卷积核的卷积层,大小为16×16,步长为16;之后在生成的模板区域和搜索区域和上加入相应的位置编码,并将模板区域和搜索区域token拼接起来: 4.3拼接的模板区域和搜索区域特征H0经过N次堆叠的transformer编码器层生成深度特征HN;步骤5:编码后的深度特征HN在向后传播的过程中会经过路径决策节点,每个决策节点Ei都将对当前目标鉴别状态进行判断;动态路径推理过程具体包含以下步骤:5.1将步骤4.3中堆叠的transformer编码器层作为主干网络,在主干网络中提取的编码特征当遇到决策点时进入适应层,适应层由transformer编码层组成,其初始化参数加载自步骤4.3中主干网络中对应的网络层,具体的,第一组适应层参数加载自主干网络的第3-4层参数,第二组适应层参数加载自主干网络的第7层参数;第一个决策点的适应层为2层,第二个决策节点的适应层为1层,第三个决策点适应层数为0层;5.2编码特征经过层归一化,并送入一个瓶颈模块将其维度从768维映射到256维;5.3此时,编码特征被送入IoU预测模块即IoU得分预测头进行当前节点IoU得分预测,预测所得到的IoU得分将作为是否选择早退的判断条件;IoU得分预测头由一个3层的MLP构成,第一层将256维输入映射到512维,中间层维持512维不变,第三层将512维特征序列映射到1维的IoU得分;步骤6:决策条件判断;通过IoU得分值的高低,判断是否符合模型早退条件;根据实际部署平台的算力情况、实例应用场景对算法速度的需求,设置不同的IoU阈值τ;如符合早退条件,则编码特征将从当前决策节点经过IoU得分预测头之后退出,即完成当前帧的目标跟踪过程;而被判断为尚未符合早退条件的情况,则编码特征将继续向后传播,直至传播到主干网络的最后一层,期间前面的决策点编码特征将复用到后面节点;条件化早退机制的决策过程如下:6.1在步骤5.3中所得到的IoU评分score与动态网络设置IoU阈值τ进行对比,如score≥τ则满足早退条件,编码特征将直接进入角点预测头,对目标所在位置的左上和右下角点进行预测,最终输出当前帧的目标位置和尺度: 角点预测头由4个RepVGG块和一层3×3的卷积层组成,特征维度从256维依次映射到128、64、32、16、2层,最后的两层特征图分别代表左上和右下角点的预测图,将角点预测图的最高响应处作为目标预测的左上和右下角点,并生成最终的预测目标边界框;6.2在步骤5.3中所得到的IoU评分score与动态网络设置阈值τ进行对比,如scoreτ则不符合早退条件;决策点处的编码特征将继续从主干网络向后传播,直到遇到下一个决策点;在步骤5.2中生成的编码特征将在后续的决策网络中被复用,复用方式为直接相加到此处的特征编码上;之后再经过步骤5.2步骤5.3中的环节;步骤7:依次经过每个早退决策点,如满足早退条件,则预测当前帧目标所在位置和尺度,结束该帧预测,如不符合条件,则继续向后传播,经过后续决策节点,得到最终的当前帧预测结果;对输入的视频帧依次预测,获得对应视频序列的所有帧目标跟踪结果。
全文数据:
权利要求:
百度查询: 大连理工大学 大连理工大学宁波研究院 大连维视科技有限公司 一种基于条件化早退机制的动态推理路径目标跟踪方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。