首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于改进YOLO模型的多模态行人检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江南大学

摘要:本发明涉及一种基于改进YOLO模型的多模态行人检测方法,属于深度学习目标检测领域。该基于改进YOLO模型的多模态行人检测算法,使用KAIST数据集中一一对应的可见光图片和红外光图片样本进行训练,得到训练好的模型,通过训练好的模型检测可见光‑红外光图片对中是否包含行人目标,该基于YOLO网络的多模态行人检测算法使用并行Darknet53作为特征提取网络,分别提取可见光模态和红外光模态的多尺度特征图,而且使用了加权特征融合层和CBAM注意力机制,使可见光特征和红外光特征图片更好的融合,再将多尺度注意力加权融合特征图依次级联并送入YOLO层中进行行人检测。

主权项:1.一种基于改进YOLO模型的多模态行人检测方法,其特征在于,包括如下步骤:1获得模型检测和训练所需的多模态数据;2使用两个并行的Darknet53作为特征提取网络,分别提取可见光和红外光图片的多尺度特征;3对步骤2中提取到的可见光特征和红外光特征通过模态加权融合层即MAM层进行模态加权融合,获得加权后的多模态融合特征图;所述的步骤3中,先使用1×1的卷积核对可见光特征Vi和红外光特征Ii进行维度压缩,再将其分别送入一个两层的神经网络中,第一层的参数为Vi和Ii的通道数除以16,第二层的参数为Vi和Ii的通道数,以ReLU作为激活函数;分别获得特征描述符,将特征描述符作为各模态的权重,各模态特征图乘以权重后级联,作为加权融合特征图;每个尺度的加权融合特征图为:Mi=fcatfninVi×AvAm,fninIi×AiAm1其中,MAM层的两个输入Vnin和Inin,分别代表可见光模态和红外光模态经过NIN层压缩后的特征图,即Vnin=fninVi,Inin=fninIi;fnin是NIN函数,即通过1×1卷积核对特征图进行降维,完成各模态在不同通道上的信息整合;fcat是级联融合函数;模态注意力机制获得了可见光模态的特征描述符Av和红外光模态的特征描述符Ai,相加后记为Am,将两个模态的特征描述符分别除以特征描述符之和Am,作为各自模态的权重,与特征图相乘后再级联融合,作为加权融合特征图,三个尺度的加权融合特征图记为{M1,M2,M3};4对步骤3中获得的多模态融合特征图引入包含通道注意力模块和空间注意力模块的CBAM注意力机制;5重复步骤3和步骤4,对步骤2中提取到的每个尺度的特征图都进行模态加权融合并引入CBAM注意力机制,获得多尺度的注意力加权融合特征图;6对步骤5中获得的多尺度注意力加权融合特征图上采样到同样尺度,并依次级联并送入YOLO层中;7每次选取一一对应的可见光-红外光图片对作为输入,进行训练,使用Adam优化算法迭代更新神经网络权重,在训练过程中计算损失函数,选择损失值最小的保存为最终的模型;8使用步骤7中保存的最终的模型对测试集中的图片进行检测,获得检测结果。

全文数据:

权利要求:

百度查询: 江南大学 一种基于改进YOLO模型的多模态行人检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。