买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明涉及一种基于混合Transformer的驾驶员视线映射方法,涉及计算机视觉、图像处理、人机交互等技术领域。驾驶员的视线与驾驶员注意力和意图密切相关,为了有效估计驾驶员在驾驶过程中对道路环境的关注点,本发明提出多尺度交叉注意力网络Multi‑ScaleCross‑AttentionNetwork,MSCA‑Net。该网络通过Transformer和Resnet并行地提取驾驶员面部特征和眼睛特征,并在不同尺度上引入交叉注意力,有效解决了因面部图像特征冗余而导致视线映射性能下降的问题。为了有效融合驾驶员眼睛特征,提出了双眼特征融合模块BinocularFeatureFusionModule,BFFM,该模块通过通道注意力和空间注意力的交互来融合双眼特征,显著提升了MSCA‑Net的视线映射精度。该网络能够有效估计驾驶员视线,可广泛应用在驾驶员注意力分析和人车交互等领域。
主权项:1.一种基于混合Transformer的驾驶员视线映射方法,其特征包括下列步骤:1构建双相机数据采集系统;2采集驾驶员人脸图像与道路图像;3对驾驶员人脸图像进行预处理;4对预处理后的图像包括人脸图像和双眼图像输入到特征提取网络,其中使用Transformer作为面部特征提取器,ResNet18作为双眼特征提取器;5将左右眼特征通过双眼特征融合模块BinocularFeatureFusionModule,BFFM进行特征融合;6在不同尺度上引入交叉注意力网络,具体地,令X1为经过BFFM融合后的双眼特征序列,X2为MSA多头自注意力输出的特征序列,对X1与X2进行交叉注意力;7将Transformer和ResNet输出特征进行拼接并全局平均池化;8将池化后的融合特征输入到KANKolmogorov-ArnoldNetworks进行回归预测,输出最终的注视点坐标X和Y;9构建评估指标,利用SmoothLlLoss损失函数度量预测结果与真实值之间的误差,然后反向传播误差,更新网络参数。根据权利要求1所述,步骤2中通过前置相机拍摄驾驶员人脸图像,场景相机拍摄道路图像,双相机采集系统如图1所示。对实际场景中的注视目标贴上AprilTag标记,AprilTag标记如图二所示,在确保驾驶安全的情况下,驾驶员在行驶过程中注视设置好的标记,采用该标记可以使得驾驶员更加轻松的集中注意力,并且在数据标记时,可以通过对AprilTag的检测实现半自动标记,节省人工数据标记的时间。根据权利要求1所述,步骤3中使用Dlib方法裁剪出面部图像及左右眼图像,由于前置摄像头捕获的图像分辨率中大部分的眼部区域分辨率低于60*60像素,加上整个数据采集过程是动态的,并且驾驶员身体和头部会产生运动,从而导致前置摄像头捕获的图像形成运动模糊,因此使用基于UNet的图像增强模型对驾驶员双眼图像进行增强。UNet网络架构学习低分辨率和高分辨率图像之间的非线性关系,该模型使用卷积块的编码器和使用反卷积块的对称解码器组成,并使用ResNet18作为编码器和解码器的骨干模型。此外,在卷积块和相应的对称反卷积块之间添加Dense-Net。并使用Flickr-Faces-HQFFHQ数据集训练。根据权利要求1所述,步骤4中的面部特征编码器通过堆叠下采样模块PatchEmbeding和transformerblock组成,L代表堆叠的层数。其架构与Swintransformer类似,对于大小为H×W×3的人脸图像,使用卷积进行下采样操作,并将通道维度投影到C,然后经历transformerblock的四个阶段。眼睛特征编码器使用Resnet18提取双眼特征,STAGE1至STAGE4为Resnet18的四个阶段,训练过程中左眼与右眼的特征提取器权重保持共享。根据权利要求1所述,步骤5中的BFFM,左眼特征使用LF表示,右眼特征使用RF表示,BFFM使用通道注意力模块SE分别对LF和RF进行通道加权。SE首先对H×W×C的输入特征进行全局平均池化操作,维度变为1×1×C,接着通过两个全连接层后使用Sigmoid激活函数,将每层数值归一化到0,1范围内,以此表示每个通道的权重,再将权重与输入特征相乘得到通道增强后的特征。然后使用哈达玛积与LF和RF交叉相乘,然后通过残差连接得到特征LF′和RF′:LF′=LF+SELF⊙RFRF′=RF+SERF⊙LF其中⊙表示哈达玛积。为了进一步提高双眼特征融合的质量,BFFM采用空间注意机制增强特征图的全局上下文信息。在此过程中,融合后的LF′和RF′分别通过SAM进行空间增强。SAM将H×W×C的输入特征进行通道维度的全局最大池化和全局平均池化,得到两个H×W×1的特征图,将全局最大池化和全局平均池化的结果按照通道拼接,特征图尺寸变为H×W×2,接着对拼接的结果进行7×7的卷积操作,得到特征图尺寸为H×W×1,接着通过Sigmoid激活函数,得到空间注意力权重矩阵,再将权重矩阵与输入特征相乘即可得到空间注意力增强的特征。通过SAM后与初始特征建立残差连接,再通过卷积进行降维操作,得到特征LF″和RF″,最后通过拼接LF″和RF″输出双眼融合特征LRF:LF″=LF+SAMLF′RF″=RF+SAMRF′LRF=ConcatLF″,RF″根据权利要求1所述,步骤6中引入了MCA,与自注意力不同的是,交叉注意力是在两个不同序列上计算注意力,用于处理两个序列之间的关系。Q=X1Wq,K=X2Wk,V=X2Wv 根据权利要求1所述,步骤7中对人脸特征和双眼特征进行拼接与全局平均池化:Ffusion=ConcatFface,FeyeF=AdaptiveAvgPoolFfusion根据权利要求1所述,步骤8中KAN受到Kolmogorov-Arnold表示定理的启发,如果f是多元连续函数,则f可以写成有限数量的单变量连续函数的两层嵌套叠加。公式如下: 其中ψq为外部函数,φq,p为内部函数。X=cospitchcosyawY=cospitchsinyaw根据权利要求1所述,步骤9中的指标分为2D指标和3D指标,通过计算真实注视点px1,y1和估计点p′x2,y2之间的欧式距离作为2D评估指标,单位分别以像素和厘米表示: 3D评估指标通过真实方向向量g和估计方向g′之间的角度差表示: 使用SmoothL1Loss损失函数,它结合了平方损失和绝对损失的优点,适用于注视估计回归问题: 其中,x是预测值与真实值之间的差值。当∣x∣≤1时,SmoothL1Loss损失函数退化为平方损失;当∣x∣1时,它退化为绝对损失。
全文数据:
权利要求:
百度查询: 重庆邮电大学 一种基于混合Transformer的驾驶员视线映射方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。