基于深度强化学习的水面无人艇路径跟踪方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明具体涉及基于深度强化学习的水面无人艇路径跟踪方法，包括：将目标无人艇的路径跟踪问题转换为马尔可夫决策过程，设置对应的状态空间、动作空间和奖励函数；获取目标无人艇的规划路径；根据目标无人艇的规划路径结合实时位姿信息计算参考航向角；然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值；将目标无人艇当前的状态值输入经过训练的策略模型中，输出最优的动作值；策略模型基于柔性演员评论家算法构建；将最优动作值发送给目标无人艇执行；直至完成规划路径的跟踪控制。本发明无需进行环境和无人艇运动建模并且具备自适应能力，从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。

主权项：1.基于深度强化学习的水面无人艇路径跟踪方法，其特征在于，包括以下步骤：S1：将目标无人艇的路径跟踪问题转换为马尔可夫决策过程，设置对应的状态空间、动作空间和奖励函数；S2：获取目标无人艇的规划路径；步骤S2中，规划路径包括直线规划路径和曲线规划路径；1直线规划路径表示为：Ps＝＜p0，...，pi，pi+1，...pT，pi∈R2；式中：T表示直线规划路径的路径点数目；pi＝xpi，ypi，1＜＝i＜＝T表示第i个路径点的位置坐标，R表示任意实数；曲线规划路径表示为：Pc：x-xc2+y-yc2＝Rc；式中：pc＝xc，yc表示曲线规划路径的圆心坐标；Rc表示曲线规划路径的路径半径；定义pt＝xt，yt为目标无人艇在t时间的位置坐标表示；1对于直线规划路径，通过如下公式计算方位角和路径跟踪误差：式中：χp表示直线规划路径下目标无人艇的方位角；表示直线规划路径下目标无人艇的路径跟踪误差；pi＝xpi，ypi表示为第i个路径点的位置坐标；pi+1＝xpi+1，ypi+1表示为第i+1个路径点的位置坐标；2对于曲线规划路径，通过如下公式计算方位角和路径跟踪误差：χc＝arctanyt-yc，xt-xc；式中：χc表示曲线规划路径下目标无人艇的方位角；表示曲线规划路径下目标无人艇的路径跟踪误差；pc＝xc，yc表示曲线规划路径的圆心坐标；Rc表示路径半径；表示pc到p的向量；S3：根据目标无人艇的规划路径结合实时位姿信息计算参考航向角；然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值；步骤S3中，通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角；矢量场算法通过如下公式计算参考航向角：1对于直线规划路径：式中：χd表示直线规划路径下的参考航向角；χp表示方位角；χMs表示最大接近角，设定为0,π2]；ks表示矢量场收敛速度的控制参数，值越大表示航向角变化的越快；ds表示目标无人艇到直线路径的跟踪误差；2对于曲线规划路径：式中：χd表示曲线规划路径下的参考航向角；ρd表示曲线规划路径的路径方向，1是顺时针，-1是逆时针；χMc表示最大接近角，设定为0,π2]；kc表示矢量场收敛速度的控制参数，值越大表示航向角变化的越快；χc表示曲线规划路径下目标无人艇的方位角；dc表示目标无人艇到曲线路径的跟踪误差；S4：将目标无人艇当前的状态值输入经过训练的策略模型中，输出最优的动作值；策略模型基于柔性演员评论家算法构建；训练时，基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值，用以更新策略模型的网络参数；步骤S4中，通过如下步骤训练策略模型：S401：初始化策略模型的网络参数，以及目标无人艇的起始位置；S402：获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角，进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值st；S403：目标无人艇当前的状态值st输入至策略模型，输出最优的动作值at；然后控制目标无人艇执行最优的动作值at，并返回对应的奖励值rt+1；S404：再次获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角，进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成执行动作值at后的状态值st+1；然后存储并更新经验回放池D←D∪st,at,rt+1,st+1；S405：重复执行步骤S302至S304，直至到达最终路径点或达到设置的回合最大步长数；S406：从经验回放池D中抽取M个样本组成批量数据，用以训练、更新策略模型的网络参数；步骤S406中，策略模型需更新的网络参数包括Q网络和π网络的网络参数以及温度参数；Q网络的目标函数表示为：式中；φ表示Q网络的网络参数；表示求所有策略的期望；Qφ表示动作-状态价值函数；γ表示折扣因子；Vφ表示状态价值函数；π网络的目标函数表示为：式中：θ表示π网络的网络参数；DKL表示KL散度相似度的指标；πθ表示策略网络；Qφ表示动作-状态价值函数；γ表示折扣因子；Vφ表示状态价值函数；温度参数的目标函数表示为：式中：α表示温度参数；表示期望；H0表示初始策略熵阈值；S5：将最优动作值发送给目标无人艇执行；S6：重复执行步骤S3至S5，直至完成规划路径的跟踪控制。

全文数据：

权利要求：

百度查询：重庆大学基于深度强化学习的水面无人艇路径跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高强韧性风电轴承钢及制法、用途和一种风电轴承

下一篇：一种人体姿态检测和康复硬件设备结合的康复训练系统及方法

相关技术

一种高强韧性风电轴承钢及制法、用途和一种风电轴承

一种人体姿态检测和康复硬件设备结合的康复训练系统及方法

珍味飞鱼籽的加工工艺

一种电池涂层、电池、电池组、用电设备

一种主骨切台及收料装置

核桃油指纹图谱构建及掺假鉴别用平台系统

一种倾斜折板精馏柱

一种炒茶控制设备

一种颌骨矫治装置

一种基于工业视觉监测的配矿原料定量添加装置

一种用于过滤器焊接的定位夹持装置

一种带储物装置的箱包拉杆组件及箱包

水面相关技术

一种水面清洁船_贾晓鹏_202310585052.9

多用途水面测量无人船_青岛海洋地质研究所_202411078094.4

水面漂浮物清理装置_济南华创智美环保科技有限公司_202411221425.5

消防用水面水带漂浮器_陈庆全_202420623157.9

一种水面清洁机器人_元鼎智能创新(国际)有限公司_202420471333.1

基于无人机的河湖水面巡查平台_苏州浩丰空间数据科技有限公司_202410628709.X

移动式水面惊扰装置及其控制方法_赵国柱_202411478792.3

一种基于雷达光电系统的水面救援执法方法_武汉银桥南海光电有限公司_202411233409.8

水面垃圾清理方法以及无人驾驶智能清洁船_陕西欧卡电子智能科技有限公司_202411496709.5

一种用于水面光伏发电的漂浮输电线路系统_四川华盛云迈能源技术有限公司_202420136251.1

艇相关技术

一种冰水两用应急救援艇_应急管理部天津消防研究所_202411489035.6

基于深度强化学习的水面无人艇路径跟踪方法_重庆大学_202210772926.7

一种无人艇收放减摆控制系统及方法_大连海事大学_202411137289.1

一种无人艇的全自动收放装置及方法_中国海洋大学_202411275238.5

一种无人艇垃圾回收方法及系统_广东工业大学_202211086744.0

一种具有水面救助功能的无人艇_湖南创纪科技有限公司_202420839924.X

一种基于MTCN-LSTM的无人艇横倾预测方法、程序、设备及存储介质_哈尔滨工程大学_202411209070.8

一种基于全格式无模型自适应的多无人艇快速包含控制方法_大连海事大学_202410358709.2

一种面向多目标的异构无人艇集群分布式协同决策方法_大连海事大学_202411224245.2

一种便于连接挂钩的船舶救生艇_东台市北海船舶设备有限公司_202420621616.X

路径相关技术

基于脊柱中心线提取的最优路径查找_皇家飞利浦有限公司_202380026910.4

基于改进PSO的最优遍历路径算法_吉林大学_202411189517.X

多路径的配置方法、装置以及系统_富士通株式会社_202280094870.2

基于等势线随机采样的路径规划方法及系统_国网安徽省电力有限公司电力科学研究院_202411492622.0

用来确定用于移动设备的运动路径的方法_罗伯特·博世有限公司_202410616458.3

路径规划方法、装置、设备及存储介质_杭州海康机器人股份有限公司_202411095983.1

多路径的处理方法、装置、设备以及系统_富士通株式会社_202280094898.6

一种路径跟踪方法、装置、设备及介质_摩若智慧能源(深圳)有限公司_202411142007.7

一种机器路径跨地形移动模拟装置_吕梁学院_202420653868.0

海上搜救路径规划方法、装置及程序产品_集美大学_202411098715.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深度强化学习的水面无人艇路径跟踪方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务