买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津大学
摘要:本发明公开了一种基于深度安全强化学习的水下滑翔机路径规划方法,该水下滑翔机路径规划方法采用水下滑翔机路径规划模型,水下滑翔机路径规划模型包括:多层感知机和基于约束马尔可夫决策过程的深度神经网络,其中,多层感知机的输入为多元数据矩阵,多层感知机提取关键特征,基于约束马尔可夫决策过程的深度神经网络包括:动作网络、奖励评价网络和损耗评价网络。本发明的水下滑翔机路径规划方法通过基于深度安全强化学习的方法,可以在确保水下滑翔机安全的前提下,实现综合成本最优的路径规划,降低了路径时间和路径距离。
主权项:1.一种基于深度安全强化学习的水下滑翔机路径规划模型,其特征在于,包括:多层感知机和基于约束马尔可夫决策过程的深度神经网络,其中,多层感知机的输入为多元数据矩阵,多层感知机提取关键特征,其中,多元数据矩阵为坐标xm,ym、坐标xf,yf、xm,ym对应的洋流速度信息、xm,ym对应的海洋地形信息拼接后得到,xf,yf为设定的水下滑翔机目标点的位置数据,xm,ym为水下滑翔机入水点坐标;基于约束马尔可夫决策过程的深度神经网络包括:动作网络、奖励评价网络和损耗评价网络,其中,约束马尔可夫决策过程:M={S,A,P,R,C,μ,γ}其中,S表示状态空间,A表示动作空间,P表示状态转移概率分布,R表示奖励函数,μ表示初始状态分布,γ表示折扣因子,C为损耗函数;基于马尔可夫决策过程生成轨迹的分布τ;动作网络用于输入关键特征并输出控制指标,控制指标经过反归一化后作为控制水下滑翔机下一个剖面航向的偏航角;奖励评价网络用于估计马尔可夫决策过程生成的轨迹的分布τ对应的奖励状态值函数VRs,通过LRφ更新奖励评价网络;损耗评价网络用于估计马尔可夫决策过程生成的轨迹的分布T对应的损耗状态值函数VCs,通过LCω更新损耗评价网络;其中,s0表示马尔可夫决策过程中初始状态,s表示马尔可夫决策过程中状态空间中的状态;Rτ为奖励值,Cτ为损耗值;为期望计算; 表示轨迹的分布τ下计算累计的奖励值;表示轨迹分布τ下计算累计的损耗值。
全文数据:
权利要求:
百度查询: 天津大学 一种基于深度安全强化学习的水下滑翔机路径规划方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。