一种基于深度强化学习的多车队列控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江苏大学

摘要：本发明提供一种基于深度强化学习的多车队列控制方法，将堆叠4帧的状态量作为网络的输入，使用车队共享网络的训练方法产生训练样本填充经验池；在训练过程中每个周期结束时对经验池进行备份；在经验池中进行采样训练网络。本发明使用车队共享网络，多车同时参加训练的训练方法，车队成员同时产生训练样本，大幅度缓解了连续动作空间探索效率低下的问题，利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好，模型可以应对更加复杂的工况。使用时序信息，堆叠4帧状态量作为网络输入，增强网络的鲁棒性。提出经验池备份方法，通过对经验池的备份和覆盖，剔除非法周期产生的样本，防止低效的样本抽取劣化训练效果。

主权项：1.一种基于深度强化学习的多车队列控制方法，其特征在于，包括如下步骤：步骤1：使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG，堆叠4帧的状态量作为网络的输入；首先使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入；步骤2：使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练，其使用的网络均为演出-评论家Actor-Critic网络架构；在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池，相比于把所有车队成员状态作为输入，输出成员个数的动作，只将每一辆智能网联汽车自身和前车的状态作为输入，输出控制自身的一个动作，与此同时所有智能网联汽车共享决策网络，共同参与网络的训练；步骤3：在训练网络过程中每个周期结束时对经验池进行备份，在每个周期结束时，对经验池进行备份：M0＝M其中M表示经验池、M0表示备用经验池，当本周期没有达到设定的条件时，该周期为非法周期，用之前备份的经验池进行覆盖，防止非法样本对经验池的污染，在本次实验中，判定依据设定为前后两帧本车的车速：M＝M0，ifvego[0]0.01andvego[1]0.01其中vego[0]表示本车第一帧的车速、vego[1]表示本车第二帧的车速；步骤4：从经验池中按照小批次抽样之后，计算目标函数yi:yi＝ri+γQisi+1,μ′si+1∣θμ′θQ其中ri表示即时回报、γ表示折扣因子、Qisi+1,μ′si+1∣θμ′θQ表示状态si+1采取演出网络的目标网络μ′si+1∣θμ′的策略所获得的价值、θμ′表示演出网络的目标网络的参数、θQ表示评论家网络的参数；然后通过最小化损失loss更新评论家网络：其中N表示小批次抽样个数、yi表示目标网络、Qsi,ai∣θQ表示状态si在策略π下采取动作ai的价值、θQ表示评论家网络的参数；最后使用策略梯度下降更新演出网络：其中N表示小批次抽样个数、表示Qs,a∣θQ对动作a的偏分，表示μs∣θμ对θμ的偏分，μs∣θμ表示演出网络，θμ表示演出网络的参数。

全文数据：

权利要求：

百度查询：江苏大学一种基于深度强化学习的多车队列控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：机载光电设备反射镜均热化控温装置

下一篇：一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

相关技术

机载光电设备反射镜均热化控温装置

一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

慢性低度炎症刺激形成衰老成纤维细胞模型的构建方法

挖掘装置极限工况的结构优化方法、装置、设备及介质

一种带有短路检测的连接器插针机

基于等几何的变刚度复合材料圆柱壳外压屈曲分析方法

一种汽车零部件冲压加工用夹具

一种高压线路电气控制机构

一种能自动弹出的抽屉式车载冰箱

独立站数据定向同步方法及其装置、设备、介质

一种飞机复合材料部件超规范修理专家系统

一种可组装与分离的混合装置及其使用方法

学习相关技术

一种学习书架_刘毅_202420259449.9

提升AI识别学习能力_华为技术有限公司_201980068228.5

基于关键学习期识别的同态加密联邦学习通信成本控制方法和系统_北京航空航天大学_202410766229.X

一种基于联邦学习的机器学习模型训练方法及装置_西交网络空间安全研究院_202410880422.6

一种基于原型对齐学习的个性化联邦学习方法_浙江大学_202410762046.0

一种基于学习行为的个性化区块链联邦学习方法_东华大学_202410792742.6

基于深度学习的自动束建模_医科达(上海)科技有限公司_202080103747.3

一种学习桌_厦门胜诚鑫科技股份有限公司_202323419230.5

一种面向深度学习大模型的参数微调迁移学习方法及系统_山东省计算中心(国家超级计算济南中心)_202410820143.0

检查装置、检查方法、学习完毕模型生成装置、检查用程序以及学习完毕模型生成用程序_日置电机株式会社_202380020782.2

队列相关技术

一种车辆队列控制装置_质子汽车科技有限公司_202410916934.3

RDMA网络下的网卡队列创建方法以及装置_阿里巴巴集团控股有限公司_202110163193.2

基于消息队列监测流量变化的弹性伸缩控制方法及系统_天翼云科技有限公司_202410863294.4

一种基于零信任架构的车辆队列控制方法_安徽大学_202410680804.4

一种缓存队列调整方法及电子设备_荣耀终端有限公司_202310782580.3

接收队列调度方法、设备、介质及计算机程序产品_浪潮电子信息产业股份有限公司_202411044585.7

一种基于人群队列多组学数据的疾病数据分析方法及系统_中国人民解放军总医院第一医学中心_202410541297.6

一种用于队列行驶的车辆分类方法_吉林大学_202211308794.9

基于消息队列的证照预警方法及系统_浪潮软件股份有限公司_202410706580.X

车辆队列的控制方法、装置、计算机设备和存储介质_清华大学_202310367672.5

车相关技术

全地形车_浙江春风动力股份有限公司_202410853165.7

壁面移动车_住友重机械工业株式会社_202380021122.6

应急抢险救援车_湖北先行专用汽车有限公司_202323667505.7

车用饰板_宸鸿科技(厦门)有限公司_202310255278.2

消防车_湖北先行专用汽车有限公司_202323568703.8

驻车辅助装置_丰田自动车株式会社_202011062971.0

车用圆形仪表_东莞市普诚博安数码科技有限公司_202420495132.5

口袋车衣_马会营_202411008417.2

轨道车_东莞开道科技有限公司_201910706139.0

一种护理车_徐州医科大学附属医院_202323364349.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的多车队列控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务