南京大学张建兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种基于强化学习的智能驾驶决策学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306800B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211454693.2,技术领域涉及:G06N3/0464;该发明授权一种基于强化学习的智能驾驶决策学习方法是由张建兵;冯帅;黄书剑;戴新宇;陈家骏设计研发完成,并于2022-11-21向国家知识产权局提交的专利申请。
本一种基于强化学习的智能驾驶决策学习方法在说明书摘要公布了:本发明提供了一种基于强化学习的智能驾驶决策学习方法,本发明通过gate门的输出,对无关连续参数进行遮蔽,能减少训练的整体误差,整个模型考虑了不同参数之间的交互关系,首先由gate门输出离散参数,然后激活对应的连续参数网络,更加准确的增加了参数的相关程度,传统的探索方法使用随机探索,需要设置专门的探索参数,该模型直接根据门控网络输出的值进行探索,能够很好的兼顾探索和未来收益。本发明能够快速的输出混合参数,模型能够及时响应环境的变化,当模型的参数需要迁移时,只需要针对性的改变部分网络模型参数,无需对整个网络进行重新训练。
本发明授权一种基于强化学习的智能驾驶决策学习方法在权利要求书中公布了:1.一种基于强化学习的智能驾驶决策学习方法,其特征在于,包括以下步骤: 步骤1,搭建基于专家门控网络的混合参数算法神经网络actor; 步骤2,将车辆驾驶中车载摄像头和车体两边的传感器接收当前的道路信息合并作为当前状态信息输入到混合参数算法神经网络actor中; 步骤3,控制车辆的方向盘、油门、刹车器执行时刻t网络输出的混合参数adis,acont,其中adis表示输出的离散动作参数,acon表示输出的连续动作参数,根据此次驾驶控制的好坏给予奖赏评价rt和一定时间后车辆接收到的下一步车载摄像头和车体两边的传感器接收当前的道路信息st+1; 步骤4,将当前车辆的交互数据[st,adis,acont,rt,st+1]储存在训练样本池buffer中,当buffer中样本数量大于一次训练所需的数据量Batch后开始进行训练; 步骤5,使用训练好的模型进行智能驾驶; 步骤1中,所述混合参数算法神经网络actor包括门控网络gate和四个专家网络expert,将状态信息state输入到门控网络gate,输出参数离散动作adis有四个,表示四种离散动作左转、保持、右转、刹车的概率值;所述状态信息state包括车载摄像头采集的图像信息、车辆雷达传感器接收的距离信息、车载传感器采集的当前时刻方向盘、油门、刹车器的状态数据; 步骤1中,所述专家网络expert共有四个,对应四种离散动作,每个专家网络expert的输入为state,输出为对应离散动作下的连续参数,记为acon; 步骤1中,如果adis=1,0,0,0,则第一个专家网络expert会输出连续动作参数acon=a,b,表示角度为a和速度为b;如果adis=0,1,0,0,则第二个专家网络expert会输出参数acon=c,表示速度为c;如果adis=0,0,0,1,则第四个专家网络expert输出的连续动作参数acon=d,表示刹车力度为d; 步骤1中,当模型输出离散参数和连续参数后,需要设置一个额外的网络critic评估当前动作的收益效果,输入为state和acon,输出1个值,表示当前车辆状态下控制动作参数对驾驶体验的好坏,其范围为-1~1,如输出为1,表示应加大模型当前的动作输出概率,如果输出-1,则表示需要减少当前模型的动作输出概率; 步骤4中,所述模型训练过程包括如下步骤: 步骤4-1,设置模型训练参数; 步骤4-2,拼接得到混合参数; 步骤4-3,将状态st+1_batch与adis_batch,acon_batcht+1拼接,将拼接后的数据输入到critic网络中,得到t+1时刻的未来预计收益Qt+1; 步骤4-4,将状态st_batch与adis_batch,acon_batcht拼接,将拼接后的数据输入到critic网络中,得到t时刻的未来预计收益Qt,将Qt+γrbatch与Qt+1之间的差距作为损失函数losscritic,其中rbatch表示采取adis_batch,acon_batcht混合动作后对驾驶体验的评价,使用losscritic进行反方向传播更新ctrtic网络的参数; 步骤4-5,将状态st_batch经过与步骤4-2相同的门控网络gate和对应的专家网络后,得到混合动作参数adis_batch,acon_batch′t,将状态st_batch与adis_batch,acon_batch′t进行拼接后输入到critic网络中,对所有critic网络的输出相加后得到损失函数lossactor,使用-lossactor进行反向传播后更新门控网络gate和所有专家网络的参数; 步骤4-6,将训练完成的混合参数算法神经网络actor模型在车辆部署验证模型的性能,评估模型在一段道路上的驾驶体验; 步骤4-7,判断混合参数算法神经网络actor模型在驾驶体验上是否提升,如果有提升则返回步骤4-2继续迭代训练,否则执行步骤4-8; 步骤4-8,结束训练模型; 步骤4-1包括:设置训练的Batch大小,折扣因子为γ,从收集的训练数据buffer中取出一个大小为Batch的训练数据[st_batch,adis_batch,acon_batcht,rbatch,st+1_batch]进行训练,其中st_batch表示时刻t的汽车状态,adis_batch,acon_batcht表示时刻t网络输出的离散参数和连续参数,rbatch表示汽车采用adis_batch,acon_batcht获取的收益,st+1_batch表示采取混合参数adis_batch,acon_batcht后汽车的状态; 步骤4-2包括:将收集训练数据中的车载摄像头和车体两边的传感器的共同状态st+1_batch通过门控网络gate,对门控网络gate的输出进行GumbelSofmax操作,GumbelSofmax操作能够依据gate输出的概率采取一个离散动作,输出adis_batcht+1为one-hot表示,adis_batcht+1表示下一状态是否进行转向、保持或者刹车; 将状态st+1_batch根据adis_batcht+1的值通过对应的专家网络,输出的连续参数为acon_batcht+1,acon_batcht+1表示下一状态控制的车辆速度、角度、刹车力度,将adis_batcht+1和acon_batcht+1进行拼接得到下一状态的混合参数adis_batch,acon_batcht+1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210023 江苏省南京市栖霞区仙林大道163号南京大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励