Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于改进DDPG算法的车辆跟驰行为决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:宁波大学

摘要:本发明涉及车辆行为决策的技术领域,特别是涉及一种基于改进DDPG算法的车辆跟驰行为决策方法,包括:根据原始自然数据集,筛选出符合条件的跟车事件数据,筛选出的跟车事件、选取数据集中合适的驾驶行为数据特征、建立基于改进DDPG算法的车辆跟驰模型、设置状态空间、设置动作空间、奖励函数R综合考虑了三方面因素、训练和策略收敛或达到预设的训练轮数时,终止训练过程;其通过双重经验回放池帮助存储和重用历史经验数据,引入两个独立回放池和进行延迟的间隔随机采样进行数据获取拟提高决策的效率,奖励函数综合考虑了三方面,安全性、效率性和舒适性,使得智能体能考虑到当前时间步的综合表现,从而达到精度较高的车辆跟驰行为决策的。

主权项:1.一种基于改进DDPG算法的车辆跟驰行为决策方法,其特征在于,包括以下步骤:S1、根据原始自然数据集,筛选出符合条件的跟车事件数据,筛选出的跟车事件,默认考虑的是前车的跟驰,不直接考虑后面的车辆,因为当驾驶员在高速公路行驶过程中,通常驾驶员认为位于他们后面的车辆的驾驶行为是合理的,即默认后车不会估计追尾前车。最后将筛选出来的跟车事件,70%用于训练数据集,30%作为测试数据集;S2、选取数据集中合适的驾驶行为数据特征,具体选取的特征数据有FV_Vel、FV_Acc、Space_Headwauy、V_Rel、LV_Vel和LV_Acc与THW和TTCi,分别表示跟随车辆的速度、加速度、跟随车辆与领先车辆的相对距离、相对速度、领先车辆的速度和加速度;S3、明确数据集中驾驶行为特征参数之间的相关性,针对数据集中选取的数据特征,进行皮尔逊相关性分析;S4、建立基于改进DDPG算法的车辆跟驰模型,设置车辆跟驰场景下的强化学习环境,包括状态空间、动作空间和奖励函数;S5、设置状态空间,选取纵向车辆的速度vFV、相对速度和纵向轨迹上的位置变化来反映行驶轨迹,根据跟随车辆的速度和加速度来迭代更新纵向的速度和纵向位置,不断重复此步骤,DDPG代理能够通过控制跟随车辆的速度来控制车辆行驶的轨迹,利用DDPG算法得到车辆跟驰过程中的加速度值,状态的更新状态通过经典运动点学模型来计算S6、设置动作空间:动作空间输出的为车辆的加速度值,然后根据运动点方程迭代生成未来的速度、相对速度和相对距离;S7、奖励函数R综合考虑三方面因素,用于评价车辆的行为并根据这些行为提供反馈,促使模型朝着期望的方向发展,主要考虑的因素是安全性、效率性、舒适性;S8、初始化参与者网络参数θμ和评论家网络参数θQ,初始化参与者目标网络θμ′和评论家目标网络θQ′,初始化经验池D1和经验池D2,其中参与者网络负责的是网络参数的迭代更新,负责根据当前状态St选择当前动作at,该动作用于与环境进行交互,目标参与者网络负责根据经验回放池中采样的下一个状态St+1选择出最佳的下一个动作at+1,评论家网络负责价值网络参数的迭代更新,负责计算当前的动作价值qst,at,评论家目标网络负责计算目标的动作价值的qst+1,at+1部分;S9、开始训练,观察当前状态St,根据策略网络选择动作at,执行动作at获取奖励rt并观察新的状态St+1;S10、根据奖励值的反馈情况将{st,at,st+1,rt}的四元组经验数据分为正样本和负样本,并分别存储到两个经验回放池中,其中正样本为完成跟驰任务的样本、既没有完成跟驰任务又没有发生碰撞的样本,负样本为发生碰撞的样本;S11、从经验池中采样,先从正样本经验池D1中采样,在延迟固定的间隔后再按比例从D1经验池和D2经验池中随机采样,随后进行网络的更新S12、使用评论家目标网络计算目标的Q值:yt′=rt′+γQst′,at′|θQ其中,yt′表示目标Q值,用于更新评论家网络,rt′在时间步ti获得的即时奖励,γ表示折扣因子,并且γ介于0和1之间,表示未来奖励的重要性,Qst′,at′|θQ表示评论家执行网络在参数θQ下基于状态st′和动作at′,计算得到的Q值;S13、通过最小化损失函数来更新评论家网络的参数θQ,损失函数L采用了均方误差的形式,即实际Q值和目标Q值之间差异的平方和,然后取平均值: 其中,L为损失函数的值;N为批量大小,即在每次参数更新时使用的样本数量,yi表示第i个样本的目标Q值,目标Q值通过步骤S12得到,Qsi-aiθQ表示Q网络对第i个样本的状态si和动作ai的预测Q值;S14、使用策略梯度更新参与者网络的参数θμ;S15、基于更新后的评论家网络的参数来更新评论家目标网络的参数,基于更新后的参与者网络的参数来更新参与者目标网络的参数;按照软更新方式进行更新: 其中,←表示赋值,τ为预设的超参数,介于0和1之间的一个小值,用于控制目标网络参数更新的速度,θμ为参与者网络参数,θμ′为参与者目标网络参数,θQ为评论家网络参数,θQ′为评论家目标网络参数;S16、当策略收敛或达到预设的训练轮数时,终止训练过程。

全文数据:

权利要求:

百度查询: 宁波大学 一种基于改进DDPG算法的车辆跟驰行为决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。