Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多智能体强化学习的多交通信号灯控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华侨大学;南威软件股份有限公司

摘要:本发明提供的基于多智能体强化学习的多交通信号灯控制方法及系统,涉及信号灯相位控制技术领域,本发明通过获取多个交叉口的路网结构与预设时段的交通数据,构建各交叉口的智能体,将相邻交叉口的上游路段出口的车流状态作为通信内容,构建多交叉口的状态通信机制;然后结合连续拥堵惩罚项构建目标奖励函数;为每个交叉口构建两个结构相同、参数不同的网络,对所有交叉口执行对应智能体的信号灯协调控制;最后采用损失函数与梯度下降法更新网络参数,直到达到最大仿真次数,得到多交叉口的信号灯相位控制策略。本发明建立了智能体之间的状态通信机制,捕捉相邻交叉口之间的动态车流特征,在实时交通数据下,能有效提升多交叉口区域的通行效率。

主权项:1.一种基于多智能体强化学习的多交通信号灯控制方法,其特征在于,包括:S1,获取多个交叉口的路网结构与预设时段的交通数据;其中,所述路网结构包括:所选区域内的多个交叉口、多个外部入口与多个入口车道;所述交通数据包括在预设时段内驶入的车流量;S2,根据所述路网结构与所述交通数据,构建各交叉口对应的智能体,所述智能体包括状态空间、动作空间和公平性奖励函数;其中,所述状态空间为对应入口车道上的车辆位置分布和速度;所述动作空间为每个交叉口所有互不冲突的相位;所述公平性奖励函数通过平均排队长度、相位的绿灯时间利用率、平均行程时间、绿灯持续时间惩罚项、红灯等待时间惩罚项与各方向的通行状况奖罚项加权得到;S3,根据所述路网结构、所述交通数据与各交叉口对应的智能体,为每个交叉口构建两个结构相同、参数不同的网络,即估计网络与目标网络;所述估计网络计算当前交叉口状态下每个动作对应的估计Q值;所述目标网络计算执行动作后的交叉口下一状态到终止状态的目标值;S4,将相邻交叉口的上游路段出口的车流状态作为通信内容,构建多交叉口的状态通信机制,选取交叉口的上游出口预设距离的路段作为监测目标,通过监测上游出口路段的车辆排队情况判断是否出现连续拥堵,构建连续拥堵惩罚项,并将所述公平性奖励函数结合连续拥堵惩罚项,从而得到目标奖励函数;S5,根据每个交叉口的估计网络计算当前时刻交叉口状态下每个动作对应的估计Q值,当前交叉口的智能体采用ε-greedy策略选择动作后,被选中的相位执行动作,并通过所述目标奖励函数计算奖励值,获取执行动作后的下一时刻车流状态;将当前时刻交叉口状态、动作、奖励值、下一时刻车流状态的数据存入经验回放集合,直到计算完每个交叉口的最大仿真次数,以实现对所有交叉口执行对应智能体的信号灯协调控制;S6,将每个交叉口所选区域的外部入口的历史驶入车流量数据作为输入,采用损失函数MSE计算所述目标值与所述估计Q值的误差,通过梯度下降法分别更新所述估计网络与所述目标网络的参数,直至达到最大仿真次数,得到各交叉口的信号灯相位控制模型;S7,获取多交叉口外部入口的实时驶入车流量数据,并输入所述信号灯相位控制模型,输出实时车流量数据下各交叉口的信号灯相位控制方案。

全文数据:

权利要求:

百度查询: 华侨大学 南威软件股份有限公司 基于多智能体强化学习的多交通信号灯控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。