买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供的一种基于FR‑DDQN的单交叉口信号灯相位控制方法及系统,涉及信号灯相位控制技术领域,本发明通过获取交叉口的历史交通数据,构建仿真环境与智能体;然后构建两个结构相同、参数不同的网络;根据估计网络计算当前交叉口状态下每个动作对应的估计Q值,采用ε‑greedy策略选择动作;选择动作后计算奖励函数的奖励值存入经验回放集合;根据目标网络计算下一交叉口状态到终止状态的目标值;采用损失函数与梯度下降法更新网络参数,直到达到最大仿真次数,得到交叉口的信号灯相位控制策略。本发明不仅可以评估所选动作对环境的短期影响,也可以通过公平性奖励机制控制动作选择策略对环境的长期影响,有效提升交叉口在一段时间内的整体通行效率。
主权项:1.一种基于FR-DDQN的单交叉口信号灯相位控制方法,其特征在于,包括:S1,获取交叉口的历史交通数据;S2,构建智能体,所述智能体包括状态空间、动作空间和公平性奖励函数;其中,所述状态空间为入口车道上的车辆位置分布和速度;所述动作空间为交叉口所有互不冲突的相位;所述公平性奖励函数通过平均排队长度、相位的绿灯时间利用率、平均行程时间、绿灯持续时间惩罚项、红灯等待时间惩罚项与各方向的通行状况奖罚项加权得到;S3,根据所述历史交通数据与所述智能体,构建两个结构相同、参数不同的网络,即估计网络与目标网络;所述估计网络计算当前交叉口状态下每个动作对应的估计Q值;所述目标网络计算执行动作后的下一交叉口状态到终止状态的目标值;S4,根据所述估计网络计算当前交叉口状态下每个动作对应的估计Q值,并采用ε-greedy策略选择动作;选择动作后,通过所述公平性奖励函数计算出奖励值,将所述奖励值存入经验回放集合;根据所述目标网络计算执行动作后的下一交叉口状态到终止状态的目标值;S5,采用损失函数MSE计算所述目标值与所述估计Q值的误差,通过梯度下降法分别更新所述估计网络与所述目标网络的参数,直至达到最大仿真次数,构建得到基于公平性奖励机制的单交叉口信号灯相位控制算法。
全文数据:
权利要求:
百度查询: 华侨大学 厦门金龙联合汽车工业有限公司 一种基于FR-DDQN的单交叉口信号灯相位控制方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。