首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Q-learning的水下滑翔机路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明一种基于Q‑learning的水下滑翔机路径规划方法,属于水下滑翔机任务规划技术领域;该方法包括水下滑翔机Q学习要素设计与算法流程设计两部分,水下滑翔机Q学习要素包括水下滑翔机状态、动作集合、奖励函数、动作选择策略、Q值表初始化;算法流程设计依据学习要素进行。本发明的水下滑翔机在不断探索学习过程中,根据环境反馈的奖励值选择最优动作,最终规划出一条安全的最短路径。相较于传统路径规划方法,该方法不需要提前知道环境信息,因此该方法在不同的环境条件下有优良的迁移能力。针对水下滑翔机的运动特点,根据”V”字形运动方式,考虑俯仰、横滚、偏航,建立了一种新的动作选择集合和动作选择策略,保证了算法对于水下滑翔机平台的适用性。

主权项:1.一种基于Q-learning的水下滑翔机路径规划方法,其特征在于具体步骤如下:步骤1:建立水下滑翔机状态表示;步骤2:动作集合设计;依据水下滑翔机执行任务时设定的深度值h、俯仰角θ和航向角ψ,对m种典型的俯仰角{θ1,θ2,…θm}分别设计n种典型的航向动作选择集{ψ1,ψ2…ψn};步骤3:奖励函数设计;通过环境反馈得到从起始点到目标点的最大累积奖励,建立奖励函数;步骤4:动作选择策略设计;首先判断俯仰角θ的大小,θ的选择范围为设定的m种典型俯仰角{θ1,θ2,…θm};根据俯仰角大小,选择对应的n种典型的航向动作选择集ai={ψi1,ψi2,…ψin};然后设定一个贪婪值ε,在每次选择动作时会产生一个随机值p∈0,1,用于决定下一步动作是随机选择还是策略选择,避免算法陷入局部最优;当p小于ε时,随机选择动作值;当p大于ε时,则选择动作集合当中Q值最大者作为此次选择的动作;步骤5:Q值表初始化方法设计;使用水下滑翔机坐标点与目标点的直线距离进行Q值的初始化,即距离目标点越远的点初始Q值越小;步骤6:给定水下滑翔机初始位置S,给定深度h,俯仰角θ=θ1,航向动作集合{ψ1,ψ2…ψn};步骤7:根据Q值表初始化方法,给Q值表赋初值;步骤8:根据动作选择策略,从俯仰角对应的动作选择集ai中选择动作a;步骤9:根据奖励函数得到立即的奖励值Reward和执行动作a后的新的滑翔机位置S’;步骤10:根据下式Q值更新函数更新对应于状态S与动作a的Q值;QS,a←1-αQS,a+α[r+γmaxQS',a]步骤11:判断水下滑翔机是否碰到障碍物,是则结束此轮学习,转到起始步骤6,否则继续进行下一步;步骤12:判断水下滑翔机是否到达目标区域,未到达则继续根据动作选择策略选择下一动作,否则继续进行下一步。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于Q-learning的水下滑翔机路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。