一种基于深度强化学习的分层越野路径规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中山大学·深圳;中山大学

摘要：本发明公开了一种基于深度强化学习的分层越野路径规划方法，属于路径规划技术领域，包括以下步骤：步骤1、设计全局地图中越野车的路程和能耗的全局成本函数，利用D*Lite算法计算全局路径；步骤2、根据全局路径取路径点来引导局部路径规划；步骤3、构建一个基于策略的深度神经网络模型来自适应地学习动态窗口法的参数，并对构建的神经网络模型进行训练，使越野车从起点到目的地的行驶过程中获得的累积奖励最大；步骤4、以全局路径点为目标，采用动态窗口法计算控制速度，得到符合越野车运动学约束的路径，完成越野环境下的路径规划。本发明提供了一种基于深度强化学习的分层越野路径规划方法，实现了越野在不同环境下的路径规划。

主权项：1.一种基于深度强化学习的分层越野路径规划方法，其特征在于，包括以下步骤：步骤1、设计全局地图中越野车的路程和能耗的全局成本函数，利用D*Lite算法计算全局路径；步骤2、根据全局路径取路径点来引导局部路径规划；步骤3、构建一个基于策略的深度神经网络模型来自适应地学习动态窗口法的参数，并对构建的神经网络模型进行训练，使越野车从起点到目的地的行驶过程中获得的累积奖励最大；步骤4、以全局路径点为目标，采用动态窗口法计算控制速度，得到符合越野车运动学约束的路径，完成越野环境下的路径规划；步骤1中全局路径的具体计算过程如下：S11、使用数字高程模型的栅格数据量化环境属性，数字高程模型是地球表面地形的离散数学表示，由规则网格元素组成的高程矩阵表示：z＝demx,y其中，x和y是位置的坐标，z是高程；S12、构建路程成本模型，如果i是地形图中的一个结点，则xi,yi,zi是该结点的地形表面坐标，任意两点i和j之间的路程成本定义为三维欧氏距离： S13、构建能量成本模型计算地形上任意两个相邻结点i和j的倾斜角：假设越野车在整个行程中以固定速度v行驶，M为越野车的质量，g为引力常数，μ为摩擦系数，抵消重力和摩擦力的最大输出力定义为Fmax＝Pmaxv，其中Pmax为越野车的最大输出功率，计算越野车前行的最大倾斜角：避免在陡峭的表面上失去牵引力，斜坡倾斜角必须小于Φs，Φs的具体计算公式如下，其中μs表示静摩擦系数，Φs＝arctanμs-μ计算上坡的临界不允许倾斜角：Φup＝minΦf,Φs当越野车下坡行驶时，定义使越野车所受外力合力为零的倾斜角为临界断裂角，其计算公式为：Φdown＝-arctanμ当Φi,jΦdown时，越野车会因为自身重力而加速，为了保持恒定的速度，越野车需要刹车，而刹车消耗的能量忽略不计；如果为Φi,jΦup，则表示越野车不能沿着连接结点i和结点j的直线行驶，但仍可能从结点i绕行到结点j，从结点i到结点j的能量成本模型定义为： S14、计算全局成本函数，基于加性加权，从结点i移动到结点j的全局成本的计算公式如下：ci,j＝α·di,j+1-α·ei,j式中，α为权重因子，可根据用户偏好设置；S15、基于全局成本函数，采用D*Lite算法进行全局路径规划，得到成本最小的全局路径；步骤2中根据全局路径取路径点来引导局部路径规划的具体过程如下：S21、选择全局路径的结点P1，P2，…，Pi，…；S22、以全局路径选择的结点P1，P2，…，Pi，…作为局部路径规划的路径点，每个路径点的有效半径为radius；S23、当越野车到达当前路径点Pi的有效半径内时，下一个路径点Pi+1将成为下一个临时目标点；S24、重复S23直至到达目的地；步骤3的具体过程如下：S31、以二维局部高程图Et、越野车姿态θpitch、θroll、障碍物信息和目标信息为深度神经网络的输入，其中障碍物信息包括到最近障碍物的距离dobst和越野车行驶方向与最近障碍物方向之间的夹角αobst；目标信息包括到目标的距离dgoal和越野车移动方向与到目标的方向之间的夹角αgoal；其中，Et、θpitch、θroll、dobst、αobst、dgoal、αgoal共同构成状态空间S，具体表达式如下：S＝[Et,θpitch,θroll,dobst,αobst,dgoal,αgoal]随着越野车的前行，深度神经网络模型不断获取状态信息作为输入，直到其训练结束；S32、根据对环境的观测和深度神经网络搜索策略执行一个动作，动作空间为动态窗口法的参数，动作空间由四个动作组成，具体表达式如下：A＝[β1,β2,β3,T]式中，β1,β2,β3表示DWA的子函数的权重因子，T表示时间周期，权重因子为一个连续值，取值范围为[0,1]，表示对相应评价函数的重要程度；时间周期T为[0,2]范围内的连续值，表示模拟越野车以采样速度行驶的持续时间；S33、为越野车导航过程设计稠密奖励函数Rtot，计算越野车在当前状态下执行动作后获得的奖励值，稠密奖励函数Rtot的具体表达式如下：Rtot＝λ1Rsucc+λ2Rfail+λ3Rwayp+λ4Rgoal+λ5Robst+λ6Rgrad+λ7Rtime式中，λii＝1,2,3,4,5,6,7表示子奖励函数的权重，Rsucc表示成功抵达目的地的奖励，Rfail表示越野车陷入危险导致导航失败的奖励，Rwayp表示抵达临时目标点的奖励，Rgoal表示距离目的地更近的奖励，Robst表示距离障碍物更远的奖励，Rgrad表示高程梯度的奖励，Rtime表示导航时间的奖励；当越野车成功到达目的地时，智能体将获得较大的正奖励rsucc；如果越野车处于危险中，智能体将获得较大的负奖励rfail；另外，如果越野车与临时路径点之间的距离小于有效半径radius，则智能体将获得正奖励rwayp，具体表达式如下：如果越野车离目的地更近，智能体将获得正奖励rgoal；否则，它将获得一个负奖励-rgoal，具体表达式如下：式中，表示当前时刻越野车的位置，表示前一时刻越野车的位置，Pgoal表示目的地的位置；如越野车离障碍物更近，智能体将获得负奖励-robst；否则，将获得正奖励robst，具体表达式如下：式中，表示当前时刻距离越野车最近的障碍物的位置，表示前一时刻距离越野车最近的障碍物的位置；Rgrad在鼓励智能体学习中有助于避开高海拔梯度区域的特征，具体表达式如下：式中，△Et表示高程梯度，rgrad是一个很小的正数；另外，智能体在到达最终状态前的每一个时间步都会收到一个小的负奖励rtime，具体表达式如下： S34、利用上述奖励函数训练设计的深度神经网络模型，使越野车从起点到目的地的行驶过程中获得的累积奖励最大，实现越野环境下的路径规划。

全文数据：

权利要求：

百度查询：中山大学·深圳中山大学一种基于深度强化学习的分层越野路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种转运罐体的箱体

下一篇：一种监控球形玻璃罩清洗装置及监控系统

相关技术

一种转运罐体的箱体

一种监控球形玻璃罩清洗装置及监控系统

简易式快拆模块化球类器材

一种模拟飞行环境测试发动机内流特性的试验装置与方法

一种含库伦摩擦的非线性结构阻尼摄动重分析方法

一种一体式单模块控制全LED前灯电路

一种射频连接器外壳的制备方法以及射频连接器

一种临床专病数据的资产价值评估方法及系统

一种圆弧凹槽吊顶及安装方法

一种海洋沉积物检测取样装置及其方法

一种铸件砂芯芯盒及其制作方法

一种冷轧钢板横向厚度差测量装置

越野相关技术

一种越野车硬顶抬升装置_广东杉友科技有限公司_202420656119.3

一种越野摩托底盘智能调校系统_重庆并作科技有限公司_202410844390.4

一种越野环境下的自动驾驶车辆路径规划方法及装置_贵州大学_202411127309.7

一种基于深度强化学习的分层越野路径规划方法_中山大学·深圳_202410124332.4

考虑通行安全的越野机动路径规划方法、介质及设备_中国地质大学(武汉)_202410794122.6

一种悬架横梁及越野车底盘_湖北三江航天万山特种车辆有限公司_202411084828.X

一种定向越野用模拟训练装置_曲阜师范大学_202420080754.1

一种面向越野环境的导航数据结构构建方法、装置_中国地质大学(武汉)_202410924332.2

一种用于越野车辆的基于MPC的变优先级运动控制方法_吉林大学_202411114238.7

一种汽车越野性能测试装置_杭志刚_202420403873.6

分层相关技术

一种土壤分层取土器_中国科学院西北高原生物研究所_202323611039.0

一种上下分层快速装夹装置_深圳市东方宇之光科技股份有限公司_202420215139.7

一种烧结燃料分层配加方法_中国冶金矿业鞍山冶金设计研究院有限责任公司_202411003194.0

用于集成电路封装的分层缺陷检测方法_昂宝电子(上海)有限公司_202110061443.1

一种带鱼巢功能的分层护坡结构_湖北省交通规划设计院股份有限公司_202323527850.0

一种雪茄烟叶分层发酵装置_湖北省烟草科学研究院_202420175975.7

一种分层式消化内科临床用呕吐物收集装置_朱应福_202410949061.6

一种带分层存放功能的糖果包装罐_广东国容包装有限公司_202420156981.8

一种干湿土分层开沟覆土免耕播种装置_西北农林科技大学_202010322529.0

基于中国剩余定理的可撤销性文件分层CP-ABE方法_天津理工大学_202410889698.0

学习相关技术

插卡式学习设备_北京猿力未来科技有限公司_202420412892.5

学习数据生成方法、学习数据生成装置以及记录介质_松下电器(美国)知识产权公司_202380024288.3

机器学习应用的有效验证_国际商业机器公司_202010498520.5

多通道和伴心律迁移学习_波士顿科学心脏诊断技术公司_201980079000.6

一种学习能力评估装置_河北启智教育科技有限公司_202420042533.5

进行机器学习以分配资源_瑞思迈数字医疗公司_202280092287.8

用于联合学习的逐层训练_高通股份有限公司_202380026404.5

一种正姿学习支架_优象文化(广州)有限公司_202420548139.9

使用强化学习进行低秩分解来压缩深度学习模型的系统和方法_华为技术有限公司_202380012345.6

可伸缩的动态转移学习机制_国际商业机器公司_202011015479.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的分层越野路径规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务