首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合深度学习网络的视觉SLAM方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学

摘要:本发明提出了一种融合深度学习网络的视觉SLAM方法。属于计算机视觉领域。包括以下步骤:步骤S1,系统接受输入的图像对,用深度学习提取局部特征描述符来替代传统手工设计的特征;步骤S2,基于LightGlue深度学习网络一种用于局部特征匹配的图神经网络,在极短的时间内实现前后帧图像特征之间的精准匹配;步骤S3,对双目图像帧进行预处理,计算每个像素匹配代价的累积函数,并利用立体深度估计模块实现精确的立体视觉重建与深度估计;步骤S4,输出特征点匹配对与深度估计结果,并应用于视觉同步定位与建图VSLAM的实现中。通过使用深度学习提高局部特征的鲁棒性,提升图像帧之间数据关联的准确性,我们的方法在不牺牲整体效率的情况下大幅提高了系统实时定位精度。即使是在极具挑战性的低光照场景中,本文提出的VSLAM方法也能克服ORB‑SLAM2一种基于特征点法的经典视觉SLAM框架等流行算法可能无法稳定运行的难题,仍然可以准确地跟踪相机位置并构建环境地图。

主权项:1.一种融合深度学习网络的视觉SLAM方法,其特征在于,包括以下步骤:S1、系统接受输入的图像对,用深度学习提取局部特征描述符来替代传统手工设计的特征;S2、基于LightGlue深度学习网络一种用于局部特征匹配的图神经网络,在极短的时间内实现前后帧图像特征之间的精准匹配;S3、对双目图像帧进行预处理,计算每个像素匹配代价的累积函数,并利用立体深度估计模块实现精确的立体视觉重建与深度估计;S4、输出特征点匹配对与深度估计结果,并应用于视觉同步定位与建图SLAM的实现中。进一步地,所述步骤S1包括以下步骤:S101、接收输入的图像数据,通过最底层到最上层的降采样过程构建图像金字塔。S102、将每一层应提取的特征点数量与该层图像的面积大小相关联,从而根据每层图像面积确定每一层所需提取的特征点数量。S103、通过高效的深度神经网络特征提取算法SuperPoint并行地提取指定数量的特征点,以确保在每层图像中提取的特征点数量达到设定值,以覆盖足够丰富的图像尺度信息。具体地,通过SuperPoint提取带有固定长度描述符的特征点。将图像宽度为W,高度为H,分辨率为W×H的图像通过65个8×8的卷积核变为W8×H8×65的维度,并在提取特征解码器使用归一化指数函数softmax删除垃圾箱维度,然后应用整形函数输出尺寸大小的W×H的张量。而在描述符解码器中对描述符进行双三次插值,并进行L22-范数,描述符中所有元素的平方和的平方根归一化处理最后输出描述符;S104、对提取的特征点进行去重处理,采用非极大值抑制的方法解决重复特征点出现的问题,确保最终的特征点集合中没有重复的特征点;再进一步地,所述步骤S2包括以下步骤:S201、将图像I∈{A,B}中的每个局部特征i与状态相关联。状态使用相应的视觉描述符进行初始化,并随后由每一层进行更新。我们将一层定义为一系列一个自注意力单元和一个交叉注意力单元。网络有L=9层,每个注意力单元有4个头,所有表示的维度为d=256。在每个注意力单元中,多层感知器MLP根据从源图像S∈{A,B}聚合的消息更新状态: 其中[·∣·]堆叠两个向量,用于对两个图像中的所有特征点进行并行计算。从源图像S∈{A,B}聚合的消息由注意力机制计算为图像S的所有状态j的加权平均值: 其中W是投影矩阵,是图像S的状态j,是图像I和S中特征点i和j之间的注意力得分,Softmax为特征提取解码器通道的激活函数;S202、在自注意力单元中,每个图像I从自身图像的特征点中提取信息,因此S=I,我们将该注意力得分记作aij。对于每个特征点i,当前状态xi通过不同的线性变换分解为键向量ki和查询向量qi,注意力得分表示为: 其中是特征点之间相对位置的旋转编码,使模型能够检索位于从特征点i学习到的相对位置的特征点j。S203、在交叉注意力单元中,每个图像I中的特征点都会关注其他图像S的所有特征点,并且S={A,B}\I。我们为每个元素计算键向量ki,但不进行查询。注意力得分表示为: 因此,我们只需要为I←S和S←I消息计算一次相似度。S204、计算两个图像的特征点之间的成对分数矩阵 其中Linear·是带有偏差的学习线性变换,为图像A的特征i。该分数对每对对应点的亲和力进行编码,即同一个3D点的2D投影;S205、那么,对于每个特征点计算匹配性分数σi:σi=SigmoidLinearxi∈[0,1]Sigmoid·是非线性激活函数。这个分数表征了特征点i具有对应点的可能性。如果某个特征点未能在其他图像中被成功检测到,则匹配失败,因此σi→0。我们将相似性和匹配性分数组合成分配矩阵P,为 当一对点i,j被预测为可匹配并且它们的相似度高于两个图像中的任何其他点时,这两个点就会产生对应关系。我们选择Pij大于阈值τ且大于行和列上任何其他元素的对。再进一步地,所述步骤S3包括以下步骤:S301、首先对双目图像进行预处理,获取图像的梯度信息。我们使用Sobel算子计算图像中每个像素点处的梯度强度和方向。其计算过程涉及到两个卷积核,分别用于计算水平方向和竖直方向上的梯度值Gx和Gy。假设左图像的灰度值为Ilx,y,则可以用以下公式表示计算的梯度幅度: 其中,Sx和Sy分别是水平和竖直方向的卷积核。那么,图像的像素点的灰度值大小为:G0=|Gx|+|Gy|S302、为了在后续的步骤中方便处理,我们将预处理后的图像保存起来,以避免重复计算并加速视差计算过程。使用映射函数将该图像上每个像素点映射到新的图像上,其灰度值G为: S303、使用像素块之间的灰度差异构建代价函数。具体地,对于每个像素点x,y,在右图像中与其匹配的像素坐标为x+d,y,其中d是视差值,则可以定义两者之间的代价函数Cx,d如下所示: 为了更准确的反应像素之间的相关性,我们通过沿各个方向水平、竖直和斜对角线方向进行匹配代价的累积,以选择全局最小代价路径,得到每个像素位置的最佳匹配代价值。并将所有r方向的匹配代价Lrx,d相加得到总的匹配代价sx,d,如下: S304、根据S302得到的总的匹配代价获取最小匹配代价的位置,对应的就是当前像素点的视差值d。它代表左图中的像素点在右图中对应的偏移量或者位移距离。具体地可以通过以下公式计算: 其中表示求取使得sx,d取最小值时的d。S305、我们利用深度学习网络对立体图像进行精准匹配,将结果与深度图比对,输出得到特征点对应的空间点。提升了图像特征点与空间地图点之间数据关联的准确性,实现更精确的立体视觉重建与深度估计。具体地,根据双目视觉的几何关系,由视差与深度的转换公式得到深度值Z: 其中,fx表示归一化的焦距,B为两个相机光心之间的距离,称作基线距离。再进一步地,所述步骤S4包括以下步骤:S401、在追踪线程中,对于系统输入的每一帧图像,采用深度学习提取和匹配局部特征描述符来替代传统手工设计的特征,通过查找与本地地图匹配的特征并应用BABundleAdjustment,是指从视觉重建中提炼出最优的3D模型和相机参数来最大程度地减少重新投影误差的跟踪,以每帧定位摄像机。S402、在局部建图线程中,对于接收到的新关键帧,首先通过对共视图中连接的关键帧的特征进行三角测量来创建新的地图点,然后执行局部BA优化相机位姿。随着关键帧数量的增加,最后通过剔除冗余的局部关键帧来降低系统的复杂性。S403、回环闭合线程分两个步骤执行,首先通过获取局部建图线程处理的最后一个关键帧并检测是否满足回环条件;然后,如果检测到回环,则立即计算当前关键帧与其邻居的共视图之间的相似性变换以获取回环中累积的误差,并优化位姿图,以实现全局一致性。最后,我们在位姿图之后结合了完整的BA优化以实现最优解。

全文数据:

权利要求:

百度查询: 电子科技大学 一种融合深度学习网络的视觉SLAM方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。