一种基于Q-learning的水下滑翔机路径规划方法

导航：龙图腾网> 最新专利技术> 一种基于Q-learning的水下滑翔机路径规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北工业大学

摘要：本发明一种基于Q‑learning的水下滑翔机路径规划方法，属于水下滑翔机任务规划技术领域；该方法包括水下滑翔机Q学习要素设计与算法流程设计两部分，水下滑翔机Q学习要素包括水下滑翔机状态、动作集合、奖励函数、动作选择策略、Q值表初始化；算法流程设计依据学习要素进行。本发明的水下滑翔机在不断探索学习过程中，根据环境反馈的奖励值选择最优动作，最终规划出一条安全的最短路径。相较于传统路径规划方法，该方法不需要提前知道环境信息，因此该方法在不同的环境条件下有优良的迁移能力。针对水下滑翔机的运动特点，根据”V”字形运动方式，考虑俯仰、横滚、偏航，建立了一种新的动作选择集合和动作选择策略，保证了算法对于水下滑翔机平台的适用性。

主权项：1.一种基于Q-learning的水下滑翔机路径规划方法，其特征在于具体步骤如下：步骤1：建立水下滑翔机状态表示；步骤2：动作集合设计；依据水下滑翔机执行任务时设定的深度值h、俯仰角θ和航向角ψ，对m种典型的俯仰角{θ1,θ2，…θm}分别设计n种典型的航向动作选择集{ψ1,ψ2…ψn}；步骤3：奖励函数设计；通过环境反馈得到从起始点到目标点的最大累积奖励，建立奖励函数；步骤4：动作选择策略设计；首先判断俯仰角θ的大小，θ的选择范围为设定的m种典型俯仰角{θ1,θ2，…θm}；根据俯仰角大小，选择对应的n种典型的航向动作选择集ai＝{ψi1,ψi2,…ψin}；然后设定一个贪婪值ε，在每次选择动作时会产生一个随机值p∈0,1，用于决定下一步动作是随机选择还是策略选择，避免算法陷入局部最优；当p小于ε时，随机选择动作值；当p大于ε时，则选择动作集合当中Q值最大者作为此次选择的动作；步骤5：Q值表初始化方法设计；使用水下滑翔机坐标点与目标点的直线距离进行Q值的初始化，即距离目标点越远的点初始Q值越小；步骤6：给定水下滑翔机初始位置S，给定深度h，俯仰角θ＝θ1，航向动作集合{ψ1,ψ2…ψn}；步骤7：根据Q值表初始化方法，给Q值表赋初值；步骤8：根据动作选择策略，从俯仰角对应的动作选择集ai中选择动作a；步骤9：根据奖励函数得到立即的奖励值Reward和执行动作a后的新的滑翔机位置S’；步骤10：根据下式Q值更新函数更新对应于状态S与动作a的Q值；QS,a←1-αQS,a+α[r+γmaxQS',a]步骤11：判断水下滑翔机是否碰到障碍物，是则结束此轮学习，转到起始步骤6，否则继续进行下一步；步骤12：判断水下滑翔机是否到达目标区域，未到达则继续根据动作选择策略选择下一动作，否则继续进行下一步。

全文数据：

权利要求：

百度查询：西北工业大学一种基于Q-learning的水下滑翔机路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于数字密钥的电子公文管理系统及方法

下一篇：一种基于电子元器件控制的防卡死智能锁体

相关技术

一种基于数字密钥的电子公文管理系统及方法

一种基于电子元器件控制的防卡死智能锁体

一种铅酸电池自动组装设备及工艺

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

一种煤矿井下风水管路在线监测系统

碳化硅半导体装置及其制造方法

一种无施工平台的远岸成品钢管桩的测量方法

一种平开窗

水泵减振装置

基于比例时滞惯性模糊CG神经网络的保密通信方法

一种室内立式蔬菜栽培架

热回收系统的控制方法、控制装置及计算机可读存储介质

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于Q-learning的水下滑翔机路径规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务