首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于大语言模型的自动驾驶多模态感知决策方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京化工大学

摘要:本申请提供基于大语言模型的自动驾驶多模态感知决策方法及装置,感知决策方法包括:获取当前时刻的目标区域的RGB图像和红外图像;利用目标检测模型对RGB图像进行处理,得到目标框以及对应的目标检测类别;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理得到目标掩码图像;利用融合模型对RGB图像、目标掩码图像和红外图像进行融合得到融合特征图;利用大视觉语言模型对表征用户意图的第一prompt信息、表征目标检测类别优先级的第二prompt信息以及融合特征图进行融合处理得到文本信息;利用自然语言大模型对文本信息进行处理得到感知决策结果。本申请提高了交通参与者在自动驾驶车辆感知决策的优先级,提升了自动驾驶车辆的安全性。

主权项:1.一种基于大语言模型的自动驾驶多模态感知决策方法,其特征在于,包括:获取当前时刻的目标区域的RGB图像和红外图像;利用目标检测模型对所述RGB图像进行处理,得到目标框以及对应的目标检测类别;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理,得到目标掩码图像;利用融合模型对所述RGB图像、所述目标掩码图像和所述红外图像进行融合,得到融合特征图;利用大视觉语言模型对表征用户意图的第一prompt信息、表征目标检测类别优先级的第二prompt信息以及所述融合特征图进行融合处理,得到文本信息;利用自然语言大模型对所述文本信息进行处理,得到感知决策结果;所述分割模型包括图像编码器,提示编码器和掩码解码器;利用分割模型对红外图像和目标框以及对应的目标检测类别进行处理,得到目标掩码图像,包括:利用所述图像编码器对所述红外图像进行处理,得到图像嵌入特征;利用所述提示编码器对目标框以及对应的目标检测类别进行处理,得到提示嵌入特征;利用所述掩码解码器对所述图像嵌入特征和提示嵌入特征进行处理,得到包含掩码和语义标签的目标掩码图像;所述融合模型包括:第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层和加法单元;利用融合模型对所述RGB图像、所述目标掩码图像和所述红外图像进行融合,得到融合特征图,包括:利用所述第一卷积层对所述红外图像进行处理,得到第一特征图;利用所述第二卷积层对所述目标掩码图像进行处理,得到第二特征图;利用所述第三卷积层对所述RGB图像进行处理,得到第三特征图;利用所述第四卷积层对第一特征图、第二特征图和第三特征图进行处理,得到第四特征图;利用所述第五卷积层对第四特征图进行处理,得到第五特征图;利用所述第六卷积层对第五特征图进行处理,得到第六特征图;利用所述第七卷积层对对所述RGB图像、所述目标掩码图像和所述红外图像进行处理,得到第七特征图;利用所述加法单元对第六特征图和第七特征图进行相加,得到融合特征图。

全文数据:

权利要求:

百度查询: 北京化工大学 基于大语言模型的自动驾驶多模态感知决策方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。