Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的信号灯智能控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明特别涉及一种基于深度强化学习的信号灯智能控制方法。该基于深度强化学习的信号灯智能控制方法,基于SUMO仿真软件和python构建仿真平台,在SUMO仿真软件中搭建路网;基于柔性动作‑评价算法SAC设计入匝道车辆的控制策略模型;定义算法流程,对目标网络进行更新,以确保训练的稳定;进行模型训练,并通过车辆仿真技术验证模型的有效性;最后实时获取道路车辆信息,利用经过训练与验证的模型实现对信号灯的实时控制。该基于深度强化学习的信号灯智能控制方法,不仅能够控制信号灯相位,还可以根据各个道路的车流密度动态调整信号灯相位,进而平衡了各个方向车辆的等待时间,提高了路口的通行效率。

主权项:1.一种基于深度强化学习的信号灯智能控制方法,其特征在于:包括以下步骤:步骤S1、搭建仿真平台;基于SUMO仿真软件和python构建仿真平台,在SUMO仿真软件中搭建路网,路网策略中包含交叉口策略、信号灯策略以及输入车辆策略;步骤S2、设计控制策略模型;基于柔性动作-评价算法SAC设计入匝道车辆的控制策略模型,分别定义模型中的状态空间S、动作空间A和奖励函数r;其中,状态空间S为车辆的位置和速度,为一维数组;动作空间A定义为信号灯的相位;奖励函数r为车辆排队长度、车辆平均速度和车辆等待时间加权求和得到的值,具体如下:r=μ1*rlength+μ2rspeed+μ3rwaitTime其中μ1、μ2与μ3分别为车辆排队长度、车辆平均速度和车辆等待时间的权重参数,权重和为1;rlength表示路口车辆平均排队长度,rspeed为所有车辆通过路口的平均车速,rwaitTime为所有车辆在路口的平均等待时间;步骤S3、定义算法流程;在进行模型训练前初始化所有参数,根据智能体执行动作更新环境状态数据,并产生奖励,将智能体执行动作的各个步骤中产生的经验存储到经验回放池中;当经验存储量达到自定义阈值时,开始学习过程,对目标网络进行更新,以确保训练的稳定;步骤S4、模型训练与验证;在训练过程中,模型以最大化累计奖励函数为目标,通过智能体在模拟环境中不断探索的方式训练模型,以提高其控制信号灯的策略方式,并通过车辆仿真技术验证模型的有效性;步骤S5、模型应用;在仿真平台中,智能体通过python调用SUMO仿真软件的TraCI接口实时获取道路车辆信息,利用经过训练与验证的模型实现对信号灯的实时控制。

全文数据:

权利要求:

百度查询: 浪潮云信息技术股份公司 一种基于深度强化学习的信号灯智能控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。