一种基于混合Transformer的驾驶员视线映射方法

导航：龙图腾网> 最新专利技术> 一种基于混合Transformer的驾驶员视线映射方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明涉及一种基于混合Transformer的驾驶员视线映射方法，涉及计算机视觉、图像处理、人机交互等技术领域。驾驶员的视线与驾驶员注意力和意图密切相关，为了有效估计驾驶员在驾驶过程中对道路环境的关注点，本发明提出多尺度交叉注意力网络Multi‑ScaleCross‑AttentionNetwork，MSCA‑Net。该网络通过Transformer和Resnet并行地提取驾驶员面部特征和眼睛特征，并在不同尺度上引入交叉注意力，有效解决了因面部图像特征冗余而导致视线映射性能下降的问题。为了有效融合驾驶员眼睛特征，提出了双眼特征融合模块BinocularFeatureFusionModule，BFFM，该模块通过通道注意力和空间注意力的交互来融合双眼特征，显著提升了MSCA‑Net的视线映射精度。该网络能够有效估计驾驶员视线，可广泛应用在驾驶员注意力分析和人车交互等领域。

主权项：1.一种基于混合Transformer的驾驶员视线映射方法，其特征包括下列步骤：1构建双相机数据采集系统；2采集驾驶员人脸图像与道路图像；3对驾驶员人脸图像进行预处理；4对预处理后的图像包括人脸图像和双眼图像输入到特征提取网络，其中使用Transformer作为面部特征提取器，ResNet18作为双眼特征提取器；5将左右眼特征通过双眼特征融合模块BinocularFeatureFusionModule，BFFM进行特征融合；6在不同尺度上引入交叉注意力网络，具体地，令X1为经过BFFM融合后的双眼特征序列，X2为MSA多头自注意力输出的特征序列，对X1与X2进行交叉注意力；7将Transformer和ResNet输出特征进行拼接并全局平均池化；8将池化后的融合特征输入到KANKolmogorov-ArnoldNetworks进行回归预测，输出最终的注视点坐标X和Y；9构建评估指标，利用SmoothLlLoss损失函数度量预测结果与真实值之间的误差，然后反向传播误差，更新网络参数。根据权利要求1所述，步骤2中通过前置相机拍摄驾驶员人脸图像，场景相机拍摄道路图像，双相机采集系统如图1所示。对实际场景中的注视目标贴上AprilTag标记，AprilTag标记如图二所示，在确保驾驶安全的情况下，驾驶员在行驶过程中注视设置好的标记，采用该标记可以使得驾驶员更加轻松的集中注意力，并且在数据标记时，可以通过对AprilTag的检测实现半自动标记，节省人工数据标记的时间。根据权利要求1所述，步骤3中使用Dlib方法裁剪出面部图像及左右眼图像，由于前置摄像头捕获的图像分辨率中大部分的眼部区域分辨率低于60*60像素，加上整个数据采集过程是动态的，并且驾驶员身体和头部会产生运动，从而导致前置摄像头捕获的图像形成运动模糊，因此使用基于UNet的图像增强模型对驾驶员双眼图像进行增强。UNet网络架构学习低分辨率和高分辨率图像之间的非线性关系，该模型使用卷积块的编码器和使用反卷积块的对称解码器组成，并使用ResNet18作为编码器和解码器的骨干模型。此外，在卷积块和相应的对称反卷积块之间添加Dense-Net。并使用Flickr-Faces-HQFFHQ数据集训练。根据权利要求1所述，步骤4中的面部特征编码器通过堆叠下采样模块PatchEmbeding和transformerblock组成，L代表堆叠的层数。其架构与Swintransformer类似，对于大小为H×W×3的人脸图像，使用卷积进行下采样操作，并将通道维度投影到C，然后经历transformerblock的四个阶段。眼睛特征编码器使用Resnet18提取双眼特征，STAGE1至STAGE4为Resnet18的四个阶段，训练过程中左眼与右眼的特征提取器权重保持共享。根据权利要求1所述，步骤5中的BFFM，左眼特征使用LF表示，右眼特征使用RF表示，BFFM使用通道注意力模块SE分别对LF和RF进行通道加权。SE首先对H×W×C的输入特征进行全局平均池化操作，维度变为1×1×C，接着通过两个全连接层后使用Sigmoid激活函数，将每层数值归一化到0，1范围内，以此表示每个通道的权重，再将权重与输入特征相乘得到通道增强后的特征。然后使用哈达玛积与LF和RF交叉相乘，然后通过残差连接得到特征LF′和RF′：LF′＝LF+SELF⊙RFRF′＝RF+SERF⊙LF其中⊙表示哈达玛积。为了进一步提高双眼特征融合的质量，BFFM采用空间注意机制增强特征图的全局上下文信息。在此过程中，融合后的LF′和RF′分别通过SAM进行空间增强。SAM将H×W×C的输入特征进行通道维度的全局最大池化和全局平均池化，得到两个H×W×1的特征图，将全局最大池化和全局平均池化的结果按照通道拼接，特征图尺寸变为H×W×2，接着对拼接的结果进行7×7的卷积操作，得到特征图尺寸为H×W×1，接着通过Sigmoid激活函数，得到空间注意力权重矩阵，再将权重矩阵与输入特征相乘即可得到空间注意力增强的特征。通过SAM后与初始特征建立残差连接，再通过卷积进行降维操作，得到特征LF″和RF″，最后通过拼接LF″和RF″输出双眼融合特征LRF：LF″＝LF+SAMLF′RF″＝RF+SAMRF′LRF＝ConcatLF″,RF″根据权利要求1所述，步骤6中引入了MCA，与自注意力不同的是，交叉注意力是在两个不同序列上计算注意力，用于处理两个序列之间的关系。Q＝X1Wq,K＝X2Wk,V＝X2Wv 根据权利要求1所述，步骤7中对人脸特征和双眼特征进行拼接与全局平均池化：Ffusion＝ConcatFface,FeyeF＝AdaptiveAvgPoolFfusion根据权利要求1所述，步骤8中KAN受到Kolmogorov-Arnold表示定理的启发，如果f是多元连续函数，则f可以写成有限数量的单变量连续函数的两层嵌套叠加。公式如下：其中ψq为外部函数，φq,p为内部函数。X＝cospitchcosyawY＝cospitchsinyaw根据权利要求1所述，步骤9中的指标分为2D指标和3D指标，通过计算真实注视点px1,y1和估计点p′x2,y2之间的欧式距离作为2D评估指标，单位分别以像素和厘米表示： 3D评估指标通过真实方向向量g和估计方向g′之间的角度差表示：使用SmoothL1Loss损失函数，它结合了平方损失和绝对损失的优点，适用于注视估计回归问题：其中，x是预测值与真实值之间的差值。当∣x∣≤1时，SmoothL1Loss损失函数退化为平方损失；当∣x∣1时，它退化为绝对损失。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于混合Transformer的驾驶员视线映射方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：处理网络游戏异常的方法、装置、存储介质及计算机设备

下一篇：一种基于GLSL ES的图像渲染方法及装置

相关技术

处理网络游戏异常的方法、装置、存储介质及计算机设备

一种基于GLSL ES的图像渲染方法及装置

一种微滴式数字PCR高浓度检测方法

基于特征卷积神经网络的太赫兹超分辨重建方法及系统

一种基于图形处理器的三维重建方法、装置及系统

一种数据传输方法、装置、射频串行接口及存储介质

光学瞄准镜防震动冲击转换装置

一种智能型链条张紧装置

一种利用手机信令数据识别家庭关系的方法

一种混凝土桥梁病害并行智能量化方法及装置

一种用于新能源汽车电池的电池铝制盖板

一种基于B2b信号的低轨卫星实时定轨与时频同步方法

Transformer相关技术

基于改进图Transformer模型的节点分类方法、系统、设备及产品_武汉大学深圳研究院_202410947014.8

一种基于Transformer模型的代码生成和代码注释的双重模型方法_沈阳工业大学_202410949071.X

一种基于transformer的人工智能模型、系统及装置_福建正孚软件有限公司_202410980127.8

一种基于时空Transformer的门控混合专家网络的参与度评估方法_上海大学_202410988732.X

基于多模态Transformer网络的驾驶员疲劳检测系统_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202210501128.0

一种基于Transformer的双向场景文本识别方法_南京信息工程大学_202411207610.9

一种基于混合Transformer的驾驶员视线映射方法_重庆邮电大学_202410764384.8

基于超图Transformer的多模态社交网络抑郁症检测方法_广东工业大学_202410949121.4

双路Transformer图像超分辨率方法及系统_江西师范大学_202411407368.X

一种视觉Transformer的图像块划分预处理方法_重庆大学_202410901181.9

映射相关技术

选择映射策略的方法与设备_上海寒武纪信息科技有限公司_202310508404.0

样本映射关系确定方法和装置_华能广东汕头海上风电有限责任公司_202410964250.0

一种量子比特映射方法、控制系统、存储介质及电子设备_量子科技长三角产业创新中心_202411420606.0

一种基于混合Transformer的驾驶员视线映射方法_重庆邮电大学_202410764384.8

滤波方法、投影映射方法、电子设备及存储介质_浙江大华技术股份有限公司_202111619623.3

物理下行链路共享信道发送配置指示符状态映射_高通股份有限公司_202380027352.3

一种面向能耗优化的存内逻辑综合映射方法及系统_中国人民解放军国防科技大学_202411073143.5

基于命令码的映射、数据处理方法、装置、设备及介质_深圳市德明利技术股份有限公司_202411044116.5

一种用于互联网医疗平台的多终端代码映射转译方法_浙江纳里数智健康科技股份有限公司_202411402188.2

一种轮廓映射方法、装置、设备和存储介质_工软数创(广州)有限责任公司_202410731057.2

驾驶员相关技术

基于驾驶员状态的驾驶辅助方法、装置、设备及存储介质_广汽本田汽车有限公司_202411182944.5

一种基于驾驶员认知架构的自动驾驶决策规划方法_上海智能汽车融合创新中心有限公司_202411132317.0

用于运行驾驶员辅助系统的方法、驾驶员辅助系统、车辆以及计算机程序和数据载体信号_大陆汽车科技有限公司_201980058874.3

基于驾驶员睡眠质量的安全驾驶方法及其系统、车辆_重庆长安新能源汽车科技有限公司_202210586580.1

用于对驾驶员辅助系统进行校准的校准设备_罗伯特·博世有限公司_202323545378.3

一种基于车辆爆胎后的驾驶员手力补偿方法_江铃汽车股份有限公司_202411019433.1

基于硬件在环的驾驶员状态监控仿真测试系统_安徽江淮汽车集团股份有限公司_202410992021.X

基于驾驶员意图的湿式离合器起步控制方法和系统_联陆智能交通科技(上海)有限公司_202210210150.X

基于多模态Transformer网络的驾驶员疲劳检测系统_合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)_202210501128.0

一种基于混合Transformer的驾驶员视线映射方法_重庆邮电大学_202410764384.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于混合Transformer的驾驶员视线映射方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务