首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于部分马尔可夫决策过程的无人车辆导航决策规划系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学(威海);中建三局集团有限公司

摘要:本发明提供了一种基于部分马尔可夫决策过程的无人车辆导航轨迹规划系统及方法,属于无人车辆导航决策规划领域。为了解决现有无人车辆在单车道非封闭场景下面对不同速度的障碍物,无法做出有效且准确的局部路径决策的问题。局部决策模块依据定位感知模块的感知信息,结合道路中出现的障碍物信息,智能做出局部路径决策;局部路径规划模块基于势场采样进行动态路径规划;路径优化模块基于车辆运动学预测模型进行路径滚动优化;对于无人车辆的速度规划,速度规划模块基于障碍物预测轨迹生成路径时间PT图,依据虚拟势场结合模型运动学约束进行速度规划,并将速度赋予每一个规划路径点。

主权项:1.一种基于部分马尔可夫决策过程的无人车辆导航轨迹规划系统,其特征在于:包括,定位感知模块1,用于获取环境信息、障碍物信息和无人车辆信息;局部决策模块2,用于根据定位感知模块1获取的感知信息,结合道路中出现的障碍物信息,智能做出局部路径决策;在进行局部路径决策时,利用部分马尔可夫过程建立无人车辆与动态环境的运动过程,并基于无人车辆-动态环境交互的POMAP过程,采用循环决策树进行局部路径决策,包括:首先,进行决策规划POMDP建模,无人车辆的POMDP模型可以定义为六元组S,A,Z,T,O,R,S、A、Z分别为状态空间、决策动作空间和观测空间;T、O、R分别为无人车辆的状态转移函数、观测函数和奖励函数;定义无人车辆在t时刻周边的局部环境为et={G_p,L_road,R_road,Obs},包括全局轨迹G_p、道路左右宽度L_road和R_road,以及动静态障碍物集Obs;定义无人车辆在t时刻的状态为st,无人车辆接收到的观测值为zt,用来估计无人车辆的真实状态将局部决策层的输入定义为et,zt,输出是一个决策πt;定义无人车辆的决策动作at由有限状态组成,根据园区单车道场景,无人车辆决策动作可分为以下情况,无障碍物下的直线循迹Tc、无避障空间的停车等待Pc、动态障碍物场景下的跟随Fc以及存在避障空间的左右避障L_A和R_A;由此可得,at={Tc,Pc,Fc,L_A,R_A};决策πt可由无人车辆一系列离散决策动作参数化表示,即πt=[at+1,at+2,at+3,……at+H],其中,H为决策预测周期;函数Tst-1,at,st=pst|st-1,at是状态转移概率模型,表示无人车辆在t-1时刻的状态为st-1,采取决策动作at后,下一时刻转移到状态st的概率,函数Ost,zt=pzt|st是观测模型,表示无人车辆在状态st对观测状态zt的置信程度;rt=st-1,at是即时奖励函数,表示无人车辆在状态st-1∈S下,采取动作at∈A所获得的即时奖励;Rt是累积折扣奖励,表示无人车辆在状态st-1∈S下,采取动作at∈A所获得的累积折扣奖励,Rt的公式如下,Rt=rt+γrt+1+γ2rt+2+…+γH-1rt+H-1其中,γ为未来时间奖赏衰减系数;POMDP决策过程是为了找一个最优策略π*将无人车辆状态映射到决策动作π:S→A,在决策周期内获得最大化预期总折扣回报, 其中,γ∈[0,1],对于一个在线POMDP,从t时刻初始状态开始,在决策动作空间A和观察空间Z中展开,直到决策周期t+H;然后,通过在每个内部节点上应用Bellman方程,找到一个最优策略, 其中,V*s描述状态最优状态值函数;V*s,a描述状态-行动对的最优行为值函数;Q*st,at+1为最优动作价值函数;pzt+1|st,at+1表示无人车辆在状态st采取动作at+1后的观测状态概率;z为积分系数,表示无人车辆的某一个观测状态;然后,提取一个完整的决策规划周期,其中,为无人车辆由状态采取最优决策动作后的下个时刻的转移状态,初始为无人AGV初始状态s0, 通过决策动作分支和观察分支反复迭代,完整的决策规划周期包含每个状态节点s上的最优决策a*,即可生成最终决策在无人车辆-动态环境交互的POMAP过程,通过期望轨迹偏离奖赏函数、障碍物避障奖赏以及动作连续性奖赏综合设计奖赏值函数,其中,1期望轨迹偏离奖赏函数无人AGV期望轨迹偏离奖赏函数为, 其中,ε为无人AGV的跟踪轨迹性能的平均横向偏差值,R_length为道路的半宽值;2障碍物避障奖赏障碍物避障奖赏函数为, 其中,dAGV,Obs表示无人AGV边界距离障碍物边界的距离;d0表示无人AGV和障碍物之间的极限安全距离;3动作连续性奖赏动作连续性奖赏函数为,r3=λ3,1na_consit+λ3,2nv_consit 其中,at和at+1表示任意相邻两时刻的决策动作,vt和vt+1表示任意相邻时刻的速度,na_consit和nv_consit分别表示决策动作和速度一致性奖赏值,na_consit>nv_consit>0;无人AGV决策过程中的决策奖赏函数为,r=λ1r1+λ2r2+λ3r3其中,λ1、λ2、λ3分别为期望轨迹偏离程度奖赏、障碍物避障奖赏以及决策动作连续性奖赏的增益系数,满足λ1,λ2,λ3>0,且λ1+λ2+λ3=1;局部路径规划模块3,用于根据局部决策模块2做出的局部路径决策基于势场采样进行动态路径规划;路径优化模块4,用于将局部路径规划模块3规划的路径基于车辆运动学预测模型进行路径滚动优化;速度规划模块5,用于根据障碍物预测轨迹生成路径时间PT图,依据虚拟势场结合模型运动学约束进行速度规划,并将速度赋予每一个规划路径点,最终获得对路径曲线的速度规划,包括基于障碍物预测轨迹的速度势场规划,局部规划路径经过优化之后,在路径的基础上加入速度信息,基于障碍物的预测轨迹,运用路径时间PT图结合障碍物势场规划,完成对路径曲线的速度规划,包括:设动态障碍物当前所处位置xobj,yobj,θobj,速度vobj,加速度aobj,角速度ωobj,可预测在时间t时障碍物的位置, 以下分四种情况进行车辆的速度规划,1车辆和障碍物速度方向同向,障碍物预测轨迹末端不在规划轨迹上结合障碍物的长宽,可知障碍物预测轨迹的覆盖区域,结合规划路径和车辆长宽,可得到未来时段的覆盖区域,其中,o为车辆起点,p为根据障碍物预测轨迹和规划轨迹生成的超车目标点,p=p2+s0,其中,点p距离点p2的最小安全距离为s0,时刻t1和t2分别为障碍物从当前时刻起碰撞规划区域和规避规划区域的时间,距离p1和p2分别为障碍物碰撞规划区域和规避规划区域距离车辆起点位置的距离;分别计算车辆行驶到p1的时间tveh1和障碍物行驶到p2的时间tobj2,若tveh1≤tobj2,车辆从开始位置以限制的最大加速度加速行驶;在满足最大速度约束条件下,计算车辆到达p2的时间tveh2,若tveh2>tobj2,则开启避障超车模式;反之,车辆跟随;对于避障超车模式:目标点可设置为tmin和tmax分别为车辆以最大加速度加速行驶到点p的时间和以当前车速行驶到点p的时间,到达目标点后,车辆以原速度匀速行驶;对于跟随前车模式:采用车尾末端作为车辆位置,p'=p1-Lv-s0;在保证跟车距离安全的情况下跟随前车,在t1时刻,到达跟随目标点位置p',到达目标点后,跟随障碍物速度行驶,Lv为车辆长度;2车辆和障碍物速度方向同向,障碍物预测轨迹末端在规划轨迹上,对于避障超车模式:目标点设置为到达目标点后,车辆以原速度匀速行驶;对于跟随前车模式:采用车尾末端作为车辆位置,因此,p'=p1-Lv-s0;依据驾驶员模型理论,在保证跟车距离安全的情况下跟随前车,在t1时刻,到达跟随目标点位置p',到达目标点后,跟随障碍物速度行驶;3车辆和障碍物速度方向反向,障碍物预测轨迹末端不在规划轨迹上,分别计算车辆行驶到p1的时间tveh1和障碍物行驶到p2的时间tobj2,若tveh1≤tobj2,车辆从开始位置以限制的最大加速度加速行驶,在满足最大速度约束条件下,计算车辆到达p2的时间tveh2,若tveh2≤tobj1,则车辆加速通过p2;反之,则车辆选择等待减速通过p1;对于避障超车模式:目标点可设置为到达目标点后,车辆以原速度匀速行驶;对于减速通过模式:采用车尾末端车辆先减速,然后加速,在t1时刻,以原速度到达目标点位置p';4车辆和障碍物速度方向反向,障碍物预测轨迹末端在规划轨迹上,分别计算障碍物行驶到p2的时间tobj2,车辆从开始位置以限制的最大加速度加速行驶,在满足最大速度约束条件下,计算车辆到达p2的时间tveh2,若tveh2≤tobj1,则车辆选择小于等于tveh2时间加速通过p2;反之,则按一定频率更新局部规划;对于避障超车模式:目标点可设置为到达目标点后,车辆以原速度匀速行驶;对于减速通过模式:采用按一定频率实时更新局部规划,直到满足避障超车模式,停止实时更新局部规划。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学(威海) 中建三局集团有限公司 一种基于部分马尔可夫决策过程的无人车辆导航决策规划系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。