买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:新疆农业大学
摘要:本发明公开了一种基于多目标多智能体的深度强化学习交通信号控制方法。本发明提出的方法包括:基于视频数据的交叉口行人过街需求感知,提取行人过街轨迹;设计考虑碳排放和行人过街的状态空间和奖励函数;路段机动车动态存量估计。针对交通拥堵、环境污染等问题,该方法在满足交叉口行人的过街需求的同时减少车辆在交叉口处的停车次数和等待时间,降低交叉口处的车辆尾气排放,缩短行人的等待时间。
主权项:1.基于多目标多智能体的深度强化学习交通信号控制方法,其特征在于该方法包括以下步骤。S1:使用SUMO仿真软件构建交叉口路网模型。使用NETEDIT构建路网模型,设置路段与交叉口的属性,设置路网中交通流属性速度、车辆类型等。S2:基于视频数据的交叉口斑马线行人过街需求感知。S21:建立基于视频数据的行人过街目标检测模型。S22:对行人过街目标检测模型进行推理,处理模型推理输出的标签数据。S23:对行人轨迹的空间分布进行估计,分析行人空间轨迹特征。S24:对轨迹数据进行聚类分析,提取行人过街的起讫点,根据不同时间的过街人数,提取行人过街的动态OD矩阵。S3的过程具体包括。S31:状态空间设计。基于视频数据的行人过街需求的估计结果的基础上,使用独热编码方法,对交通信号控制的相位信息进行编码,同时考虑各相位的最小绿灯信息和路段机动车动态存量,设计强化学习的状态。路段机动车存量估计如下所示。假设路段的出入口前后各设有虚拟检测器和,包含由目标路段驶向出入口的车辆累计曲线为,包含由出入口驶向目标路段的车辆累计曲线为,上游车辆累计曲线为,下游车辆累计曲线为。假设:1初始存量为0;2上下游断面车辆捕获率100%;3路段有且只有一个出入口。则有出入口路段机动车动态存量为。 按照上下游车辆是否匹配,将上游车辆累计曲线分成两类,可以分为能与下游车辆匹配的部分,未能与下游车辆匹配部分;同样,将下游累计车辆曲线分成能与上游车辆匹配的部分,未能与上游车辆匹配的部分;将出入口虚拟检测器位置的车辆累计曲线也分为能匹配部分,,与未能匹配部分,。 当出入口两个虚拟检测器距离很近时,,结合公式2与3,路段机动车动态存量转变成如下所示。 其中,和未知,需要进行估计。可以通过上游未匹配车辆累计曲线和下游未匹配车辆累计曲线对出入口虚拟检测器的未匹配车辆的累计车辆曲线进行重构,估计和。考虑有出入口路段的初始存量时,由于路段存在出入口,上游车辆可能从出入口驶出路段,车辆也可能从出入口驶向下游。那么,在上游累计车辆变化数和下游累计车辆变化数可能不相等。令出入口的变化累计车辆数为,假设从时刻到时刻时段内,上游、下游以及出入口的交通流率不变,而且,车辆均匀到达、匀速行驶、车辆在路段中无滞留。则有出入口的初始动态存量估计如下。 其中,为从时刻到时刻,上游新增的累计车辆数;为从时刻到时刻,下游新增的累计车辆数,为路段平均行程时间,为路段的长度,为上游交叉口停车线至出入口的距离,为出入口至下游交叉口停车线的距离。故在有出入口路段上,考虑初始存量时,路段机动车动态存量估计如下。 其中,和分别为从时刻到时刻,上游和下游能匹配车辆的累计车辆数;和分别为从时刻到时刻,上游和下游未匹配车辆的累计车辆数;和分别为从时刻到时刻出入口两个虚拟检测器的未匹配车辆的重构累计车辆曲线,结合未匹配车辆上下游断面过车时刻,使用行程时间分布信息对未匹配车辆在中间出入口的过车时刻进行估计,从而重构中间出入口的未匹配车辆累计曲线。S32:动作空间设计。智能体通过执行器与环境进行交互,并执行相应的行动。在智能信号控制领域中,动作集合通常是离散的,主要分为固定相序和可变相序两种。在实际路网中,相位的选择主要取决于交叉口的实际交通状况,包括其几何形状、渠化设计、交通流量以及其他特定的控制目标,相位可以根据具体需求进行设计。目前,对于常见的十字路口,通常采用东西直行、东西左转、南北直行、南北左转四个相位。S33:奖励函数设计。智能体的目标为缓解交通拥堵、缩短行人等待时间和减少车辆的尾气排放。因此,建立出行者总延误最小目标、车辆碳排放最小目标、排队长度最小目标、速度最大目标,构建不同目标的权重系数的奖励函数。等待时间为因红灯产生的排队等待时间。为体现智能体执行动作后对出行者等待时间的改善情况,使用出行者执行动作前后等待时间之差与动作前后的最小值之比的负值作为奖励函数,出行者等待时间的奖励函数定义如下。 其中,为当前时段出行者的等待时间;为上一时间段出行者的等待时间;当前时段内出行者的等待时间;为当前时段出行者总数;为一个很小的正无限数。车辆排放奖励函数为车辆在车道的二氧化碳排放。为体现智能体执行动作后对车辆二氧化碳排放的改善情况,使用车辆执行动作前后的车辆的二氧化碳排放之差作为奖励函数,二氧化碳排放的奖励函数定义如下。 其中,为当前时段车道的平均车辆二氧化碳排放;为上一时间段车道的车辆平均二氧化碳;为一个很小的正无限数。车辆排队长度为车辆排队队列从交叉口停止线或排队起点至队列末尾之间的长度。为体现智能体执行动作后对车辆排队长度的改善情况,使用车辆执行动作前后的车辆排队长度之差与动作前后的最小值之比的负值作为奖励函数,车辆排队长度的奖励函数定义如下。 其中,为当前时段车道的车辆排队长度;为上一时间段车道的车辆排队长度;当前时段内车道的车辆排队长度;为当前时段内进入车道的车辆总数;为一个很小的正无限数。车辆行驶速度为车辆在道路上行驶时的速率。为体现智能体执行动作后对车辆行驶速度的改善情况,使用当前进口道的平均速度与进口道的最大限速之比作为奖励函数。考虑车辆行驶速度的奖励函数定义如下。 其中,为当前时刻进口道的平均速度,为进口道的最大限速。通过考虑上述指标,并结合各自对应的权重系数。加权得最终奖励,整体奖励函数定义如下。 其中,表示出行者等待时间奖励函数;表示二氧化碳排放奖励函数;表示排队长度奖励函数;表示车辆速度奖励函数;表示第个奖励的权重系数,且满足。假设为不同目标之间的重要性倍数,的取值范围,不同目标之间重要性使用正交实验确定。权重系数定义如下。 S34:惩戒函数设计;通过惩戒函数,引导智能体在未来学习过程中避免采取使用不利的动作。当智能体的累计奖励低于某个阈值时,给奖励分配一个惩罚值;当路网中某个车辆等待时间过长,给奖励分配一个惩罚值。惩戒函数定义如下。 其中表示累计奖励;表示累计奖励阈值;表示车辆等待时间;表示车辆等待时间阈值;表示行人等待时间;表示行人等待时间阈值。S4:构建多目标多智能体的深度强化学习模型。MADDPG(Multi-AgentDeepDeterministicPolicyGradient)算法是一种先进的多智能体强化学习技术,它通过让多个智能体在共享环境中协同学习,解决了多智能体系统中的协作与竞争问题。MADDPG算法允许智能体在不需要了解环境动力学模型的情况下,通过相互观察和学习来快速收敛到最优策略,从而在复杂的动态环境中展现出强大的适应性和灵活性。所以,本发明的多目标强化学习模型选择MADDPG算法,算法的网络包括:策略网络、价值网络和目标网络,其中价值网络包括:局部价值网络和全局价值网络。模型的输入为路口当前的交通状态,输出为动作的概率分布。局部价值网络用于评估智能体在特定状态下采取动作的价值,同时考虑个体奖励和邻近智能体的影响;全局价值网络从全局视角评估智能体的价值,旨在最大化整个系统的奖励。
全文数据:
权利要求:
百度查询: 新疆农业大学 基于多目标多智能体的深度强化学习交通信号控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。