合肥工业大学张炳力获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利一种基于DeepSeek训练框架的多模态自动驾驶训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120910477B 。
龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511408309.9,技术领域涉及:G06F18/20;该发明授权一种基于DeepSeek训练框架的多模态自动驾驶训练方法是由张炳力;赵李辉;王怿昕;胡忆楠设计研发完成,并于2025-09-29向国家知识产权局提交的专利申请。
本一种基于DeepSeek训练框架的多模态自动驾驶训练方法在说明书摘要公布了:本发明涉及自动驾驶技术领域,尤其涉及一种基于DeepSeek训练框架的多模态自动驾驶训练方法。包括:读取DriveLM‑nuScenes数据集的多视角摄像头图像与文本指令,按环视布局拼接图像形成全景表示;对全景图像进行缩放、归一化及标准化处理得到图像张量;对文本指令进行标记化处理,插入图像占位符与对话角色标记,结构化文本输入表示;通过多模态对齐模块实现视觉与文本标记序列的维度对齐、位置编码附加及跨模态注意力融合,生成多模态嵌入表示;将嵌入表示输入DeepSeek语言模型自回归生成决策文本,以带掩码的交叉熵损失为优化目标。本发明解决了现有多视图融合不足、模态对齐薄弱等问题,提升了复杂场景下的认知可靠性与决策可解释性,适配车载边缘部署。
本发明授权一种基于DeepSeek训练框架的多模态自动驾驶训练方法在权利要求书中公布了:1.一种基于DeepSeek训练框架的多模态自动驾驶训练方法,其特征在于,包括以下步骤: S1:读取DriveLM-nuScenes数据集样本数据,样本数据包含多视角摄像头图像和文本指令信息,多视角摄像头图像为实验车辆按环视布局部署摄像头采集所得,文本指令信息为表达驾驶任务或场景理解需求的自然语言信息,按环视布局的固定顺序拼接各视角图像,形成全景拼接图像; S2:将全景拼接图像缩放至384×384像素,转化为张量后归一化至[0,1],经通道预设均值与标准差标准化,得到预处理后的图像张量; S3:将文本指令信息转化为初步标记序列并分配位置信息,在序列中插入图像占位符与对话角色标记,采用预设格式构建结构化文本输入表示; S4:通过多模态对齐模块,依次执行多模态统一表示构建、标记序列对齐与预适配、跨模态注意力对齐处理,获得融合视觉与文本语义的多模态嵌入表示; 多模态对齐模块含视觉编码单元、文本编码单元及跨模态注意力单元,步骤S4具体包括如下步骤: S41:多模态统一表示构建:视觉编码单元将图像张量转化为视觉标记序列,文本编码单元将结构化文本输入表示转化为文本标记序列,设定定长上限,对两类序列进行补齐或截断处理,同步生成标识有效无效位置的序列掩码信息,并生成位置编码信息; S42:标记序列对齐与预适配:通过线性投影将两类序列的特征向量映射至同一维度空间,为文本标记序列附加基于顺序索引的序列位置编码,为视觉标记序列附加基于二维行列坐标的空间位置编码,编码向量均与对应特征向量在同一维度相加; S43:跨模态注意力对齐:合并两类序列输入跨模态注意力单元,基于缩放点积计算文本与视觉序列的语义关联权重,依据序列掩码信息仅在有效位置执行注意力计算,出维度为[batch_size,seq_len,hidden_dim]的多模态嵌入表示; 其中,其中batch_size维度表示批处理大小,seq_len维度表示统一序列长度,hidden_dim维度表示语义表征的向量空间维度; S5:将多模态嵌入表示输入基于DeepSeek训练框架的语言模型,通过自回归生成方式逐步生成自动驾驶场景的语义理解与决策文本,形成预测序列; S6:采用教师强制策略将真实标签作为解码输入,以带掩码的交叉熵损失为目标,通过AdamW优化器执行梯度回传与参数更新,结合权重衰减与指数衰减学习率调度策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励