买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉科技大学
摘要:基于稀疏注意力InterWindow块的LightSwin图像分类方法,步骤包括:首先,对图像数据集进行Mixup、水平翻转、随机剪裁等图像增强处理,并打上相应的标签,然后使用SwinTransformer预训练模型进行训练,获取图像的低维度分层特征表示,接着使用基于稀疏注意力InterWindow块进行训练,强化图像的空间特征表示,最后利用分类器对提取的特征进行处理,得到最终的图像分类结果。本发明提出的LightSwin模型结合了CNN架构和Transformer架构的优势,实现了轻量化的高效特征提取,同时,在预训练阶段,本发明采用了l∞范数控制模型注意力权重的稀疏程度,使得模型能够自我调节注意力分布,提高了图像分类的准确率和预测速度。
主权项:1.一种基于稀疏注意力InterWindow块的LightSwin图像分类方法,其特征在于包括以下步骤:步骤1使用图像分类数据集对模型进行预训练,其步骤如下:步骤1.1使用Mixup的方法对图像数据进行图像增强操作:Mixup操作后的图像和标签计算公式: 其中xi和xj表示数据集中的原始图像数据,yi和yj对应图像的独热标签,λ为服从Beta分布的概率值,范围为0-1,和表示为Mixup操作后新生成的图像数据和对应图像标签,通过随机选取数据集中图像数据,即可得到图像增强后的图像分类数据集;步骤1.2对数据集图像输入数据随机裁剪、水平翻转和标准化预处理操作;步骤2基于SwinTransformer预训练模型对图像进行预处理,包括以下步骤:步骤2.1利用输入层将步骤1中得到的图像数据输入到模型的SwinTransformer层中,输入的图像数据的形状为: 其中表示输入的图像数据,B为输入图像的批量大小,H、W为输入图像的高度和宽度,3表示输入图像为RGB的三通道图像数据;步骤2.2对输入的图像数据使用SwinTransformerblock分阶段进行特征提取,在第一个阶段输入特征图被缩放成大小,其中C为设定的初始维度。从第二阶段开始每经历一个阶段输入特征的的高宽减半,特征维度数翻倍,最终输出的特征图形状为; 其中表示输出的图像数据,B为输入图像的批量大小,为输入图像的高度和宽度,4C表示输出图像的维度;步骤3将步骤2中得到的数据输入到InterWindow块,包括以下步骤:步骤3.1InterWindow块首先将特征图分成不重叠的窗口,在窗口内进行一次注意力计算,并将结果与捷径分支相加,由于注意力计算不改变图像数据形状,输出的图像数据形状仍为步骤3.2将图像数据按不重叠窗口的相对位展平成序列,序列的长度即为小窗口的个数,将小窗口的高宽设置为M,因此序列长度为而序列个数即为小窗口的像素个数,即为M2个,对序列数据进行一次注意力计算,然后将序列数据重新折叠回原来的形状即步骤3.3将步骤3.2得到的数据和原始数据沿着维度方向进行拼接,拼接后形状为通过卷积层进行特征融合,融合之后的形状为步骤3.4将步骤3.3融合之后的数据再次下采样至重复步骤3.1-步骤3.3的操作,得到输出: 其中X表示输出的图像数据;步骤4将步骤3中得到的数据线性展平成的形状,最后通过线性层得到输出结果:p=B,N其中p表示模型预测类别的概率,N输出类别个数;步骤5对每一个批量中的预测数据,通过l∞范数,可以对注意力权重进行正则化,并且可以通过超参η控制其分布的稀疏程度 其中loss表示模型训练的损失函数,N表示预测类别的个数,max|w|表示注意力层中的权重矩阵中最大值,W-MSA-weights表示步骤3.1中注意力计算的权重矩阵,IW-MSA-weights表示步骤3.2中注意力计算的权重矩阵,yi为独热编码的真实标签,pi表示模型预测概率;步骤5设置学习率和迭代次数,在数据集上训练得到训练过后的模型;步骤6将预测图片输入到模型中,同时将批量数B设置为1,将输出结果p=1,N在第二维度按从大到小排序得到预测最大的类别即为图像类别。
全文数据:
权利要求:
百度查询: 武汉科技大学 一种基于稀疏注意力InterWindow块的Light Swin图像分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。