恭喜东南大学张宇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利一种基于区域筛选模块和多层次对比的自监督预训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114387454B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210018471.X,技术领域涉及:G06V10/56;该发明授权一种基于区域筛选模块和多层次对比的自监督预训练方法是由张宇;米思娅;陈子涵;程昊设计研发完成,并于2022-01-07向国家知识产权局提交的专利申请。
本一种基于区域筛选模块和多层次对比的自监督预训练方法在说明书摘要公布了:本发明公开了一种基于区域筛选模块和多层次对比的自监督预训练方法,由于对数据集图片进行人工标注既昂贵又费时,采用无标签的自监督方法对图像分类和目标检测的深度学习模型进行预训练在计算机视觉领域中有着不可或缺的研究意义,为了在这一类数据集中直接进行有效的自监督预训练,本发明提出基于实例区域筛选模块来预训练模型,其功能是在用于对比学习的图片生成两个增强图中筛选出特定数量最可能包含实例信息的块图,并将他们进行匹配,本发明提出了一种对全局、局部以及全局局部综合信息进行多层次对比学习的模块。这种方法用多实例数据集预训练出的模型在图片识别、目标检测等下游任务中取得了良好的精度提升。
本发明授权一种基于区域筛选模块和多层次对比的自监督预训练方法在权利要求书中公布了:1.一种基于区域筛选模块和多层次对比的自监督预训练方法,其特征在于:所述方法包括以下步骤:步骤1:建立初始深度学习神经网络;步骤2:将不带标签的训练输入数据输入神经网络,并基于无监督数据筛选出其中包含实例特征的局部块图;步骤3:训练步骤,通过多层次对比学习的损失函数,基于无监督数据筛选出的局部块图训练深度学习神经网络模型,所述步骤2具体包括:图片的两个RGB增强图生成后,将其按照网格化的方式分割为整齐排列的多个块图{P1,P2,…,Pn},其中n表示增强图包含块图的总数;采用图像RGB信息熵来初步筛选实例块图,对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[Pr:Pg:Pb],红色通道Pr的图像信息熵计算方式如下: 其中pri表示像素值i在红色通道Pr中的比例,像素值的范围为[0,255],接下来,计算块图总RGB信息熵HP,图像总RGB信息熵计算方式表示为: 在整个增强图v中,将所有的网格化切分的块图{P1,P2,…,Pn}按照图像RGB信息熵HP大小从高到低排序,筛选出图像信息熵前kH高的块图;因图像RGB信息熵仅能对增强图中块图的局部信息进行计算,故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选,在增强图中,使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率,假设Ik表示增强图中一个像素点,则Ik的显著值计算方式如下: 其中,gIk表示像素Ik的灰度值,fn表示灰度值n在整个增强图中的出现频率,Dist.代表两个灰度值之间的欧式距离,对于一个增强图v,将其转化为灰度图Vg,对于所有的像素点Ik,计算其显著值在Vg中的值;根据像素点的显著值来计算块图的显著值SP,其计算方式表示为: 根据块图的显著值SP从高到底排序,进一步筛选出显著值SP最高的前k个kkH小块,作为实例区域筛选模块的筛选结果,对于增强图v,筛选出的所有块图表示为Pv;计算用于对比学习的全局和局部特征,深度学习模型依次包含一个主干网络fθ和两个MLP头,主干网络选择残差网络Resnet50,MLP头包含一个线性层,归一化算子和ReLu层,对于多实例数据集中一个图像的两个增强图v和v′与筛选出的块图Pv和Pv′,将其首先放入主干网络fθ中进行计算,输出得到它们对应的嵌入特征向量,其中通过整个增强图得到全局特征向量Iy,Iy′,块图视为局部特征向量,记为Py,Py′,它们经过第一个MLP头之后,得到对应的投影特征Iz,Iz′和Pz,Pz′,对于第一个增强图v,还需要将其投影特征投入第二个MLP头的计算,得到预测特征Iq和Pq,所述步骤3具体包括:采用多层次的对比学习来最大限度地利用筛选出块图的实例信息,首先进行局部对比学习,对于增强图v中的一个块图,其预测特征记为Pq,计算得到该块图来自增强图v′的匹配块图,该匹配块图的投影特征记为Pz′,为了提升上述匹配块图间的特征相似性,设立局部对比损失函数Llocal,其计算方式表示如下: 其中‖·‖表示L-2范数函数,·表示向量的内积;进行全局对比学习,对于数据集中一个图像的两个增强图v和v′,设定增强图v的预测特征为Iq,增强图v′的投影特征记为Iz′,则全局对比损失函数Lglobal的计算方式为: 其中‖·‖表示L-2范数函数,·表示向量的内积,将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习,该位置编码设定为POS,表示一个筛选出的局部实例块图在整个增强图中的定位信息,对于一个像素大小为224×224的增强图,POS设定为初始值均为0的的一维向量,其长度为408,假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POS设置方式则是将向量下标为a和224+b的元素值设为1,对于一个增强图v,设立其综合对比学习连接表示Cq,其计算方式表示如下:Cq=catIq,Pq,POSP,v其中cat·表示向量的拼接操作,POSP,v代表块图P在增强图v中的位置编码,对于相对应的增强图v′的综合对比学习连接表示Cz′,具有类似的计算方式,接下来,计算“全局—局部”的对比损失函数: 设置总损失函数,其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合: 其中α,β,γ表示平衡这三种对比损失函数的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市麒麟科创园智识路26号启迪城立业园04幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。