首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的多车队列控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江苏大学

摘要:本发明提供一种基于深度强化学习的多车队列控制方法,将堆叠4帧的状态量作为网络的输入,使用车队共享网络的训练方法产生训练样本填充经验池;在训练过程中每个周期结束时对经验池进行备份;在经验池中进行采样训练网络。本发明使用车队共享网络,多车同时参加训练的训练方法,车队成员同时产生训练样本,大幅度缓解了连续动作空间探索效率低下的问题,利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好,模型可以应对更加复杂的工况。使用时序信息,堆叠4帧状态量作为网络输入,增强网络的鲁棒性。提出经验池备份方法,通过对经验池的备份和覆盖,剔除非法周期产生的样本,防止低效的样本抽取劣化训练效果。

主权项:1.一种基于深度强化学习的多车队列控制方法,其特征在于,包括如下步骤:步骤1:使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG,堆叠4帧的状态量作为网络的输入;首先使用前后四帧的本车和前车状态作为神经网络输入,一帧状态量为[d,v1,v2,a1,a2],其中前后车之间距离d,前车车速v1,前车加速度a1,后车车速v2,后车加速度a2,一共20个状态量作为神经网络的输入;步骤2:使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练,其使用的网络均为演出-评论家Actor-Critic网络架构;在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池,相比于把所有车队成员状态作为输入,输出成员个数的动作,只将每一辆智能网联汽车自身和前车的状态作为输入,输出控制自身的一个动作,与此同时所有智能网联汽车共享决策网络,共同参与网络的训练;步骤3:在训练网络过程中每个周期结束时对经验池进行备份,在每个周期结束时,对经验池进行备份:M0=M其中M表示经验池、M0表示备用经验池,当本周期没有达到设定的条件时,该周期为非法周期,用之前备份的经验池进行覆盖,防止非法样本对经验池的污染,在本次实验中,判定依据设定为前后两帧本车的车速:M=M0,ifvego[0]0.01andvego[1]0.01其中vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速;步骤4:从经验池中按照小批次抽样之后,计算目标函数yi:yi=ri+γQisi+1,μ′si+1∣θμ′θQ其中ri表示即时回报、γ表示折扣因子、Qisi+1,μ′si+1∣θμ′θQ表示状态si+1采取演出网络的目标网络μ′si+1∣θμ′的策略所获得的价值、θμ′表示演出网络的目标网络的参数、θQ表示评论家网络的参数;然后通过最小化损失loss更新评论家网络: 其中N表示小批次抽样个数、yi表示目标网络、Qsi,ai∣θQ表示状态si在策略π下采取动作ai的价值、θQ表示评论家网络的参数;最后使用策略梯度下降更新演出网络: 其中N表示小批次抽样个数、表示Qs,a∣θQ对动作a的偏分,表示μs∣θμ对θμ的偏分,μs∣θμ表示演出网络,θμ表示演出网络的参数。

全文数据:

权利要求:

百度查询: 江苏大学 一种基于深度强化学习的多车队列控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。