北京工业大学包振山获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京工业大学申请的专利基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114492625B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210084131.7,技术领域涉及:G06V10/764;该发明授权基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案是由包振山;赵谦;张文博设计研发完成,并于2022-01-23向国家知识产权局提交的专利申请。
本基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案在说明书摘要公布了:基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案,其特点是通过模型迁移隐式的将分类问题与目标检测问题相关联,使得仅需要分类问题的搜索时间结合少量的目标检测网络训练时间即可得到高性能的目标检测网络,大幅度降低了搜索的资源消耗,为智能车标志物检测问题提供了高性能的定制化网络。
本发明授权基于迁移的目标检测网络搜索模型在智能车标志物检测问题的解决方案在权利要求书中公布了:1.基于迁移的目标检测网络搜索模型在智能车标志物检测问题的方法,其特征在于,包括如下三个步骤: 步骤1预训练搜索阶段 设计并搜索两类模块,分别为“正常模块”和“下采样模块”,用来建立最终的结构;其中,“正常模块”输入与输出的特征图维度相同,而“下采样模块”会对特征图进行一次步幅为2的下采样操作,即特征图维度减半; 在模块的设计上,将每个模块表示为由K个节点按顺序排列的有向无环图,其中设置K=7,每个节点分别对应一个特征矩阵;由节点i到节点j的边表示为ei,j,该边的输入为特征xi,输出记为Oi,jxi,节点j接收所有来自输入边的所有输入,经过特征拼接形成节点j的特征矩阵xj,如公式1所示; xj=∑i<jOi,jxi1 令O为模型的搜索空间,代表边ei,j所有候选操作的集合,对于每一组操作Oi,j,都设置一组系数所以实际上在训练过程中,使用的是搜索空间中的混合操作操作的选取抽象为搜索空间中的softmax混合,则每边的选择如公式2所示: 上述公式2中,即为根据各操作系数的softmax权重系数,ox代表了搜索空间中操作的搜索权重,所以公式2即为搜索空间中各操作的softmax混合;至此,实现输入特征矩阵xi操作Oi,j输出特征矩阵xj的连通通路,各节点通过上述通路进行组合用于特征提取;同时在网络优化过程中使用共享权重搜索模式,即同时进行模型权重更新和架构优化,通过交替训练架构参数α和网络权重ω*,初始化α是值为0.125的K*K-3*8维矩阵,K-3是刨除两个输入节点和一个输出节点,8为搜索空间操作种类数目;使用LR逻辑回归最小化损失项与来寻找最优模块结构,LR逻辑回归可以有效表征训练集数据与预测的差异程度,故使用LR优化网络参数ω*, 取6个模块进行搜索,将6个模块拼接全连接层用于分类,这样便组成了一个小规模的神经网络,设置训练周期Ep=40,在与都小于1时或每边的架构参数的softmax结果皆有大于0.3的选择时,认为模型搜索阶段收敛成功,此时优化的ω即为训练完成的网络权重; 优化公式如公式3所示,公式3中,α代表架构参数,也是其中的集合,ω*代表权重,ω*α代表在架构参数α下的权重取值,与分别代表验证集损失项与训练集损失项,是以ω,α作为输入,使用LR逻辑回归求得;搜索阶段两个参数同步优化,其目的是减小与两个损失项,使得能够寻找到最优结构α的同时得到最优性能的权重ω*α: 步骤2模块堆叠 在步骤1中获取到模块后,将模块堆叠形成深层主干网用于特征提取;选取N个模块进行堆叠,其中有M个下采样模块,其余为正常模块,下采样模块插入到深层主干网的1M+1处来实现多尺度特征的提取,其中N=20,M=2; 形成主干网络后,拼接全连接层与分类器,并使用步骤1标志物数据集进行分类的权重训练; 步骤3模型迁移 在步骤2中获取到用于特征提取的深层主干网与预训练权重,将其用于特征提取,并将提取到的特征作为输入传入特征金字塔与一阶段检测器中,用于处理检测任务;共设计了三个特征图,第一张特征图是原始图片下采样32倍,第二张特征图是原始图片下采样16倍,第三张特征图是原始图片下采样8倍;输入图像在经过步骤2中得到的深层主干网形成特征矩后被分为两用,第一用经过若干3*3卷积、1*1卷积后形成特征图一,第二用经过1*1卷积与上采样操作,并与该深层主干网的中间层结果concat形成特征图二;同样的操作进行循环产生特征图三,至此用于代表图像特征的多维度特征矩阵已然得到; 其中在上述操作中,concat是指将多组特征图按照通道维度直接进行拼接; 在得到多维度特征后,使用Yolo一阶段式检测器进行特征处理;在检测器方面,输入为多维度特征,输出为带有B*5+C个特征矩阵,其中B表示每个单元可以预测的边界框的数量,每个边界框都有5+C个属性,分别描述每个边界框的中心坐标,尺寸,目标分数和C个类的置信度;为每个单元预测3个边界框,即B=3,共有7种分类类别,即C=7,B=3能完成有效的候选框提取,C为待检测物体总类别; 通过公式4来进行边界框的预测预处理; bx=σtx+cx by=σty+cy 其中,bx预测的中心坐标x轴坐标,by是纵坐标,bw是预测框宽度,bh是预测框高度;tx是预处理后的x轴坐标,ty是预处理后的纵坐标,tw是处理后的宽度,th是处理后的高度;cx是网格的左上角x坐标,cy是y坐标;pw是网络预测的边界框的宽度,ph是高度,σ是sigmod函数,它迫使输出的值压缩在0和1之间,因为如果输出值大于1,预测的边框将超过当前边框,不符合设计初衷, 在边界框中选取最优解;对此使用非极大抑制来进行选择,即遍历所有框的得分,选中每个类别中的最高分以及对应边界框,并且删除与已选框高于一定交并比的边界框,因为超过设定阈值,使用交并比th=0.5作为阈值,th>0.5常用于小目标的检测筛选,并不涉及较小物体的检测,故直接使用th=0.5进行检测框的筛选; 最后,使用公式5对网络进行权重微调训练; 其中t为标签,只包含0,1,o为输入,包含0~1的小数,n代表图片总数,i代表第i张图片,则t[i]代表当前输入项是否匹配第i张图片的标签,分别对应0为不匹配,1为匹配,o[i]代表经过神经网络预测输入到检测器中的数据匹配第i张图片的标签的概率,两者具有相同的维度,以此代表图片的信息熵,每个训练周期o[i]随之变化,达到最小化loss的效果,当loss小于1时认为收敛。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。