淮阴工学院王文豪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉淮阴工学院申请的专利一种基于DETR改进模型的稀疏注意力目标检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117152416B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311122596.8,技术领域涉及:G06V10/25;该发明授权一种基于DETR改进模型的稀疏注意力目标检测方法是由王文豪;伍言伦;付步颖;孙陈瑾;靳陶阳;牟孝志;陈鑫;赵丽娟;戚薇设计研发完成,并于2023-09-01向国家知识产权局提交的专利申请。
本一种基于DETR改进模型的稀疏注意力目标检测方法在说明书摘要公布了:本发明公开了一种基于DETR改进模型的稀疏注意力目标检测方法,基于DeformableDETR框架改进而来,其中编码器由多个编码器层堆叠而成,每一层主要由依赖实例的稀疏注意力模块、门控线性控制单元以及它们之间的残差连接和归一化操作构成,解码器由多个解码器层堆叠而成,每一层主要由多头自注意力模块、依赖实例的稀疏注意力模块、门控线性控制单元以及它们之间的残差连接和归一化操作构成;本发明利用实例之间的依赖关系增强了注意力的表达能力,稀疏注意力能够根据输入图像的内容动态调整特征之间的连接性,更好地捕捉语义信息,操作减少计算复杂度。本发明能够提高计算效率,提高模型对目标的检测性能。
本发明授权一种基于DETR改进模型的稀疏注意力目标检测方法在权利要求书中公布了:1.一种基于DETR改进模型的稀疏注意力目标检测方法,其特征在于,包括: 1将训练数据集输入骨干网络SwinTransformerV1中,提取出三层特征图C3、C4和C5; 2通过多尺度特征融合模块,将三层特征图C3、C4和C5转变为四个特征层,融合四个特征层并加入相对位置编码信息,获得多尺度融合特征图; 3将多尺度融合特征图作为编码器的输入,编码器由多个编码器层堆叠而成,每一层主要由依赖实例的稀疏注意力模块、门控线性控制单元以及它们之间的残差连接和归一化操作构成,输入的特征序列依次通过依赖实例的稀疏注意力模块、残差连接和归一化操作和门控线性控制单元进行处理,最后再经过一个残差连接和归一化操作,得到一层编码器的输出;重复遍历多次编码器,得到编码器输出特征图; 4将编码器输出特征图作为解码器的输入,解码器由多个解码器层堆叠而成,每一层主要由多头自注意力模块、依赖实例的稀疏注意力模块、门控线性控制单元以及它们之间的残差连接和归一化操作构成,具有位置编码的特征序列输入多头自注意力模块,多头自注意力模块的输出经过残差连接和归一化操作后,再依次通过依赖实例的稀疏注意力模块、残差连接和归一化操作和门控线性控制单元进行处理,最后再经过一个残差连接和归一化操作,得到一层解码器的输出;重复遍历多次解码器,获得解码器输出特征向量; 5将解码器输出特征向量分别通过一个线性层和一个多层感知机来预测类别和边界框,获得一个预测的目标集合,每个目标包含类别和边界框坐标信息; 6将预测的目标集合与真实的目标集合之间进行网络整体损失计算,通过反向传播优化模型; 7多次重复步骤1至6,得到训练好的目标检测模型; 步骤2包括: 将三层特征图C3、C4和C5经过三个卷积核为1×1步长为1的卷积依次变换为尺寸为和的特征图,将最后一层特征图C5经过卷积核为3×3步长为1的卷积变换为尺寸为的特征图,作为第四个特征层; 将四个特征层加上坐标信息,为区分不同层的特征点位置信息,引入相对位置坐标,位置嵌入方法是将每个层的特征点的绝对坐标转换为相对坐标;将每个层的特征点的相对坐标和尺度信息拼接起来,获得多尺度融合特征图; 步骤3中,依赖实例的稀疏注意力模块执行如下的操作: 首先,将多尺度融合特征图进行分块,得到一个特征向量序列X=x1,x2,...,xN,其中N和n表示特征序列长度,xi表示序列中第i个特征向量, 表示实数域,d是特征维度,表示xi是d维的实数向量,每个元素都是实数;表示X是维度为n×d的实数矩阵;对每个特征向量进行线性变换,分别通过三个线性变换Q=XWQ、K=XWK和V=XWV得到查询向量Q=q1,q2,...,qN、键向量K=k1,k2,...,kN和值向量V=v1,v2,...,vN,其中WQ,WK,WV是可学习的参数矩阵,这些参数矩阵在训练过程中通过反向传播进行优化,以使模型能够自适应地学习输入序列的表示,表示WQ,WK,WV都是d维实数向量形成的d×d矩阵; 接着,通过一个轻量级的连接预测模块来估计每对特征向量之间的连接分数,连接分数反映了两个特征向量在语义上的相关性,连接预测模块执行如下的操作: 计算低秩注意力权重,低秩注意力权重公式如下: 其中,从查询Q和向下投影键WdownK的外积计算关注矩阵的低秩近似,Wdown是可学习的参数矩阵,ndown表示降维大小,n表示输入特征序列长度,WdownK表示将K的token维度向下投影到较低的维度,表示特征维度,softmax表示归一化函数,表示矩阵的转置运算; 通过阈值对低秩注意力权重进行稀疏化,其公式如下: 其中,表示一对特征向量i和j之间做低秩注意力权重计算得到的结果,τ表示阈值,在低秩注意力稀疏化中,小于τ的值直接舍弃不存储零值; 通过连接掩码预测器,产生一个向上投影的稀疏化连接掩码M,其表达式为: 其中,连接掩码预测器对稀疏上投影矩阵Wup进行稀疏矩阵乘法,即 Wup是可学习的参数矩阵,它通过用Top-k算法选择有限的相似度分数,即选择前k个最相关的特征向量作为注意力对象而不是计算所有可能的配对;进行二值化操作得到一个向上投影的稀疏化连接掩码M,1[·]表示二值化,它是将子集中的元素映射为一,而其他元素映射为零,在连接掩码预测器中,它用于将每对标记的连接分数二值化,这些分数表示它们对注意力的相关性; 然后,在稀疏化连接掩码M的指引下,算法只计算全秩注意力权重A的非零元素,即如果每一对特征向量,它们之间满足Mij=1时,表示它们具有相似度能进行注意力匹配计算,计算稀疏全秩注意力矩阵公式如下: 最后,对于每个查询向量i,其对应的计算输出向量为: 其中当Mij≠1时,舍弃对应的否则保留N是特征序列长度,vj表示值向量V=v1,v2,...,vN中第j个元素的表示,表示特征向量i和j之间的注意力加权计算结果,最终整个依赖实例的稀疏注意力模块计算输出为:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人淮阴工学院,其通讯地址为:223000 江苏省淮安市经济技术开发区枚乘东路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。