首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种车辆变道决策模型训练方法和一种车辆变道决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中汽创智科技有限公司

摘要:本发明公开了一种车辆变道决策模型训练方法和车辆变道决策方法,所述方法包括:获取仿真环境中自车的行驶状态信息,根据行驶状态信息构建马尔科夫决策模型的状态矩阵;将状态矩阵输入强化学习模型进行处理,预测得到状态矩阵对应的行为决策信息;根据行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;将奖励得分、行为决策信息、当前时刻的状态矩阵、下一时刻的状态矩阵,带入损失函数,确定本次任务的损失值;采用外部元学习算法更新强化学习模型的参数进行迭代训练,得到车辆变道决策模型。本方案能够能够在小样本的训练下获得强化学习大量训练数据下的效果,并且能够在不同车流密度、不同路段的变道场景下有很好的泛化能力。

主权项:1.一种车辆变道决策模型训练方法,其特征在于,所述方法包括:获取仿真环境中从原车道待变至目标车道的自车以及位于所述原车道和所述目标车道上的与所述自车关联的目标交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建马尔科夫决策模型在当前时刻的状态矩阵;将所述状态矩阵输入强化学习模型进行处理,预测得到所述状态矩阵对应的行为决策信息,所述行为决策信息包括所述自车的纵向加速度和变道标志信息;控制所述自车按照所述纵向加速度和所述变道标志信息执行变道任务,并在确定所述变道任务结束之后,获取所述自车的行为结果信息;根据所述行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;获取所述自车以及所述自车的预设距离范围内的交通参与者在下一时刻的行驶状态信息,并根据所述行驶状态信息构建所述下一时刻的状态矩阵;将所述奖励得分、所述行为决策信息、所述当前时刻的状态矩阵、所述下一时刻的状态矩阵,带入所述强化学习模型的损失函数,确定本次任务的损失值;基于所述损失值,采用外部元学习算法更新所述强化学习模型的参数继续进行迭代训练,直至达到预设的终止条件则结束训练,得到车辆变道决策模型。

全文数据:

权利要求:

百度查询: 中汽创智科技有限公司 一种车辆变道决策模型训练方法和一种车辆变道决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术