首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的分层越野路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中山大学·深圳;中山大学

摘要:本发明公开了一种基于深度强化学习的分层越野路径规划方法,属于路径规划技术领域,包括以下步骤:步骤1、设计全局地图中越野车的路程和能耗的全局成本函数,利用D*Lite算法计算全局路径;步骤2、根据全局路径取路径点来引导局部路径规划;步骤3、构建一个基于策略的深度神经网络模型来自适应地学习动态窗口法的参数,并对构建的神经网络模型进行训练,使越野车从起点到目的地的行驶过程中获得的累积奖励最大;步骤4、以全局路径点为目标,采用动态窗口法计算控制速度,得到符合越野车运动学约束的路径,完成越野环境下的路径规划。本发明提供了一种基于深度强化学习的分层越野路径规划方法,实现了越野在不同环境下的路径规划。

主权项:1.一种基于深度强化学习的分层越野路径规划方法,其特征在于,包括以下步骤:步骤1、设计全局地图中越野车的路程和能耗的全局成本函数,利用D*Lite算法计算全局路径;步骤2、根据全局路径取路径点来引导局部路径规划;步骤3、构建一个基于策略的深度神经网络模型来自适应地学习动态窗口法的参数,并对构建的神经网络模型进行训练,使越野车从起点到目的地的行驶过程中获得的累积奖励最大;步骤4、以全局路径点为目标,采用动态窗口法计算控制速度,得到符合越野车运动学约束的路径,完成越野环境下的路径规划;步骤1中全局路径的具体计算过程如下:S11、使用数字高程模型的栅格数据量化环境属性,数字高程模型是地球表面地形的离散数学表示,由规则网格元素组成的高程矩阵表示:z=demx,y其中,x和y是位置的坐标,z是高程;S12、构建路程成本模型,如果i是地形图中的一个结点,则xi,yi,zi是该结点的地形表面坐标,任意两点i和j之间的路程成本定义为三维欧氏距离: S13、构建能量成本模型计算地形上任意两个相邻结点i和j的倾斜角: 假设越野车在整个行程中以固定速度v行驶,M为越野车的质量,g为引力常数,μ为摩擦系数,抵消重力和摩擦力的最大输出力定义为Fmax=Pmaxv,其中Pmax为越野车的最大输出功率,计算越野车前行的最大倾斜角: 避免在陡峭的表面上失去牵引力,斜坡倾斜角必须小于Φs,Φs的具体计算公式如下,其中μs表示静摩擦系数,Φs=arctanμs-μ计算上坡的临界不允许倾斜角:Φup=minΦf,Φs当越野车下坡行驶时,定义使越野车所受外力合力为零的倾斜角为临界断裂角,其计算公式为:Φdown=-arctanμ当Φi,jΦdown时,越野车会因为自身重力而加速,为了保持恒定的速度,越野车需要刹车,而刹车消耗的能量忽略不计;如果为Φi,jΦup,则表示越野车不能沿着连接结点i和结点j的直线行驶,但仍可能从结点i绕行到结点j,从结点i到结点j的能量成本模型定义为: S14、计算全局成本函数,基于加性加权,从结点i移动到结点j的全局成本的计算公式如下:ci,j=α·di,j+1-α·ei,j式中,α为权重因子,可根据用户偏好设置;S15、基于全局成本函数,采用D*Lite算法进行全局路径规划,得到成本最小的全局路径;步骤2中根据全局路径取路径点来引导局部路径规划的具体过程如下:S21、选择全局路径的结点P1,P2,…,Pi,…;S22、以全局路径选择的结点P1,P2,…,Pi,…作为局部路径规划的路径点,每个路径点的有效半径为radius;S23、当越野车到达当前路径点Pi的有效半径内时,下一个路径点Pi+1将成为下一个临时目标点;S24、重复S23直至到达目的地;步骤3的具体过程如下:S31、以二维局部高程图Et、越野车姿态θpitch、θroll、障碍物信息和目标信息为深度神经网络的输入,其中障碍物信息包括到最近障碍物的距离dobst和越野车行驶方向与最近障碍物方向之间的夹角αobst;目标信息包括到目标的距离dgoal和越野车移动方向与到目标的方向之间的夹角αgoal;其中,Et、θpitch、θroll、dobst、αobst、dgoal、αgoal共同构成状态空间S,具体表达式如下:S=[Et,θpitch,θroll,dobst,αobst,dgoal,αgoal]随着越野车的前行,深度神经网络模型不断获取状态信息作为输入,直到其训练结束;S32、根据对环境的观测和深度神经网络搜索策略执行一个动作,动作空间为动态窗口法的参数,动作空间由四个动作组成,具体表达式如下:A=[β1,β2,β3,T]式中,β1,β2,β3表示DWA的子函数的权重因子,T表示时间周期,权重因子为一个连续值,取值范围为[0,1],表示对相应评价函数的重要程度;时间周期T为[0,2]范围内的连续值,表示模拟越野车以采样速度行驶的持续时间;S33、为越野车导航过程设计稠密奖励函数Rtot,计算越野车在当前状态下执行动作后获得的奖励值,稠密奖励函数Rtot的具体表达式如下:Rtot=λ1Rsucc+λ2Rfail+λ3Rwayp+λ4Rgoal+λ5Robst+λ6Rgrad+λ7Rtime式中,λii=1,2,3,4,5,6,7表示子奖励函数的权重,Rsucc表示成功抵达目的地的奖励,Rfail表示越野车陷入危险导致导航失败的奖励,Rwayp表示抵达临时目标点的奖励,Rgoal表示距离目的地更近的奖励,Robst表示距离障碍物更远的奖励,Rgrad表示高程梯度的奖励,Rtime表示导航时间的奖励;当越野车成功到达目的地时,智能体将获得较大的正奖励rsucc;如果越野车处于危险中,智能体将获得较大的负奖励rfail;另外,如果越野车与临时路径点之间的距离小于有效半径radius,则智能体将获得正奖励rwayp,具体表达式如下: 如果越野车离目的地更近,智能体将获得正奖励rgoal;否则,它将获得一个负奖励-rgoal,具体表达式如下: 式中,表示当前时刻越野车的位置,表示前一时刻越野车的位置,Pgoal表示目的地的位置;如越野车离障碍物更近,智能体将获得负奖励-robst;否则,将获得正奖励robst,具体表达式如下: 式中,表示当前时刻距离越野车最近的障碍物的位置,表示前一时刻距离越野车最近的障碍物的位置;Rgrad在鼓励智能体学习中有助于避开高海拔梯度区域的特征,具体表达式如下: 式中,△Et表示高程梯度,rgrad是一个很小的正数;另外,智能体在到达最终状态前的每一个时间步都会收到一个小的负奖励rtime,具体表达式如下: S34、利用上述奖励函数训练设计的深度神经网络模型,使越野车从起点到目的地的行驶过程中获得的累积奖励最大,实现越野环境下的路径规划。

全文数据:

权利要求:

百度查询: 中山大学·深圳 中山大学 一种基于深度强化学习的分层越野路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。