首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种无信号交叉口完全自主交通流通行控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明适用于智能交通技术领域,提供了一种无信号交叉口完全自主交通流通行控制方法,包括如下步骤:交叉口几何拓扑建模与交通流场景建模;交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换;交通流通行控制网络模型设计;利用安全改进的深度强化学习方法训练交叉口交通流通行控制方法。通过仿真实验测试结果表明,本发明提出的方法可以在贴近真实场景的交通流仿真环境中有效地训练得到安全性改进且高效舒适的无信号交叉口自动驾驶交通流通行策略。

主权项:1.一种无信号交叉口完全自主交通流通行控制方法,其特征在于,包括以下步骤:步骤1、交叉口几何拓扑建模与交通流场景建模:通过定义交叉口的道路方向、道路数量、道路所含车道数量以及道路宽度,构建出由道路交汇形成的十字交叉口场景;设定车辆的被控区域以及到达交叉口的车辆密度,车辆到达交叉口的概率服从泊松分布;步骤2、交叉口交通流通行控制问题的约束马尔科夫建模及安全强化学习问题转换:设定交叉口交通流通行控制问题的状态空间、动作空间、奖励函数以及成本函数,将交叉口通行控制问题转变为安全深度强化学习问题;其中,状态空间表示智能体在环境中的所有状态特征,动作空间表示智能体在环境中可以采取的动作,奖励函数用于对智能体在某一状态下采取某一动作的性能进行评价,成本函数用于对智能体采取的动作的风险进行评估;步骤3、交通流通行控制网络模型设计:设计具有策略-价值-成本架构的神经网络模型;其中,策略网络为交通流通行控制的决策模块,基于当前环境状态输出智能体拟采用的动作;价值网络和成本网络分别用于近似通行策略的性能评价函数和风险评估函数,用来指导策略网络的更新方向;步骤4、利用安全性改进的深度强化学习方法训练交叉口交通流通行控制方法:将拉格朗日乘子法融合进深度强化学习方法,以得到安全性改进的深度强化学习方法;其输入为环境状态,基于当前策略网络为智能体选择拟采用的动作,智能体执行所选取的动作,进而得到下一个时间步的状态;搜集智能体与环境交互的状态和动作轨迹得到采样样本,进而基于价值网络和成本网络对当前策略的性能和风险进行评估;计算策略网络、价值网络以及成本网络的损失函数,利用梯度下降法对策略进行迭代更新;所述步骤1包括以下具体步骤:步骤1.1、交叉口几何拓扑建模:基于右侧通行双向六车道交汇形成的十字形交叉口,对交叉口的几何拓扑结构进行建模;连接交叉口的道路所包含的车道由内侧到外侧分别记为N1、N2、N3、E1、E2、E3、S1、S2、S3、W1、W2和W3,车道宽度为w,以交叉口的几何中心点作为交通流通行控制问题的局部坐标系原点;在车道N1、E1、S1和W1上行驶的汽车仅允许左转,在车道N2、E2、S2和W2上行驶的汽车仅允许直行,在车道N3、E3、S3和W3上行驶的汽车只能采取右转的行驶方向;车辆的行驶方向由驶入车道和驶出车道的标识来表示,车辆的行驶路径为设定的车道参考中心线;车辆在交叉口通行的被控区域为交叉口内部和道路上距交叉口入口距离db的范围所涵盖的区域;步骤1.2、交通流场景建模:在交叉口被控区域的边缘,源源不断地生成伴有随机到达速度的车辆,所有车辆在本方法所提供的算法的控制下行驶通过交叉口;当车辆驶出交叉口后,算法放弃该车辆的控制接管,车辆在自身控制器作用下恢复到巡航行驶速度;设定交叉口车辆到达率为每车道每小时ρ辆,且车辆在每个时间点的到达概率服从泊松分布,即: 其中X表示在某时间点是否有车辆到达交叉口,若有车辆到达,则X为1,若无车辆到达,则X为0;q=0,1,即X的所有可能的取值;td为离散时间步间隔;车辆在交叉口的运动状态建模如下:在时间步t,车辆Vi的速度为vit,加速度为ait,加加速度为jit,航向角为hit,以车辆几何中心坐标表示车辆所处的位置,车辆Vi中心距交叉口入口距离为车辆Vi中心距其期望路径在交叉口内中点的距离为车辆Vi与车辆Vj中心的距离为dijt,接近交叉口的车辆总数最大值为N;在所述步骤2中,约束马尔科夫决策过程由一个六元素的元组构成是智能体在环境中的状态s的集合,即将交叉口交通流通行控制问题的状态空间表示为: 其中Ii和Oi分别为车辆Vi在交叉口的驶入车道信息和驶出车道信息,共同表示车辆在交叉口的行驶方向,使用独热编码表示;当交叉口通行车辆数量小于N时,状态s中的空缺车辆位置由对应状态空间的下限补充; 是智能体可采取的动作a的集合,即将动作空间表示为: 其中,ai为车辆Vi拟采用的纵向加速度,范围是amin,amax;状态转移概率P表示智能体由状态s采取动作a转移到状态s′的概率;奖励函数R用于量化智能体在状态s采取动作a的性能;奖励函数设置分为目标奖励Rg、速度奖励Rv和舒适奖励Rc;其中目标奖励Rg为稀疏奖励,速度奖励Rv和舒适奖励Rc为密集奖励;目标奖励Rg表示车辆通过交叉口这一通行目标的达成情况,用于引导策略向车辆无碰撞地安全通过交叉口的方向优化,目标奖励Rg的计算公式为:Rg=[Np,Nc][rp,rc]T5其中Np和Nc分别为在当前时间步通过交叉口的车辆数量和发生碰撞的车辆数量,rp和rc分别为单车通过奖励和单车碰撞奖励;速度奖励Rv表示车辆行驶速度相对于设定的推荐车速的偏离情况,用于引导车辆以适当的车速行驶,设推荐车速为vmin,vmax,速度奖励Rv的计算公式为: 其中kv<0为速度奖励系数;舒适奖励Rc表示车辆行驶的加速度变化剧烈程度,用于引导策略向更优行驶舒适性的方向优化,舒适奖励Rc的计算公式为: 其中kc<0为舒适奖励系数;综上,所提出的强化学习算法在单个时间步的奖励函数为:R=Rg+Rv+Rc8同时,设计成本函数c,将交叉口交通流通行控制问题的行车风险以约束的形式引入强化学习的策略训练过程中,成本函数c的计算公式为: 其中,da表示车间距成本函数的激活阈值,当两车距离dijt小于da时,计算车辆的行车风险;表示取余运算;表示两车所在车道的位置关系,若两车在同一车道,则否则通过累加每个车辆对的相对距离与两车航向角夹角正弦值的乘积,来评估交叉口交通流通行的车辆行驶碰撞风险;在成本函数中加入车辆碰撞奖励的分值作为碰撞成本,来强化车辆碰撞事件的高成本;约束马尔科夫决策过程的元素γ∈[0,1]是折扣因子,表示未来奖励成本相比近期奖励成本的重要程度;引入策略π,表示在时间步t的状态s下,从动作空间中选取动作a的概率分布,数学表达式为: 从时间步t至最终时间步的整个s,a,R,C,s′序列的累计奖励称为价值回报 Vπs为状态价值函数,表示在状态s下遵循策略π至回合结束所获得的期望价值回报: 定义成本回报表示从时间步t至最终时间步的累计成本: 定义状态成本函数CVπs,表示在状态s遵循策略π至回合结束时的期望成本回报: 安全深度强化学习的目标是利用智能体与环境交互收集的样本数据,不断训练优化神经网络所代表的策略,寻找出使得整个交互过程的价值回报最大,同时成本回报保持在约束值的最佳策略π*: 其中Cl为期望约束;在所述步骤3中,策略网络、价值网络和成本网络均包括输入层、两个隐藏层和输出层;输入层用于输入当前时间步的环境信息,即车辆实时位置、速度、驶入车道及驶出车道信息,隐藏层用于进行输入层到输出层的映射,输出层用于输出车辆控制指令、状态价值或状态成本;所述步骤4包括以下具体步骤:步骤4.1、搜集状态、动作、奖励和成本轨迹:安全深度强化学习以智能体所处的环境状态s作为输入,基于当前策略网络为智能体选择拟采用的动作a,智能体执行所选取的动作,进而得到下一个时间步的环境状态s′;对所经历的状态、动作、奖励和成本轨迹s,a,R,C,s′进行搜集,用于神经网络的训练和迭代;步骤4.2、基于价值网络和成本网络的策略评估:在每次迭代的训练过程中,首先将搜集到的轨迹数据批乱序并均分成若干份最小数据批,依次利用每份最小数据批进行更新幅度受限的策略优化;将采集的轨迹数据重复利用若干次,分别利用价值网络和成本网络对当前策略的性能和风险进行评估,以指引策略网络的迭代优化方向;使用均方误差回归拟合方法计算价值网络损失函数: 成本网络的损失函数为: 步骤4.3、神经网络参数更新:拉格朗日乘子λ的损失函数为: 利用梯度下降方法更新拉格朗日乘子λ: 其中αλ为拉格朗日乘子学习率;计算价值优势函数 表示在状态st下采取动作at,实际得到的折扣奖励相对价值网络拟合的状态价值的优势;计算成本优势函数 计算新旧策略的变化比例: 通过裁剪函数限制策略的更新变化比例,策略网络损失函数为: 其中∈∈[0,1]为裁剪系数;将策略网络、价值网络和成本网络的隐藏层参数共享,因此结合各个网络的损失函数,建立新的损失函数利用梯度下降方法来实现网络参数的更新;结合式16、17和23,建立策略-价值-成本网络的损失函数 利用梯度下降方法更新网络参数: 其中α为神经网络学习率。

全文数据:

权利要求:

百度查询: 吉林大学 一种无信号交叉口完全自主交通流通行控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。