买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明具体涉及基于深度强化学习的水面无人艇路径跟踪方法,包括:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;获取目标无人艇的规划路径;根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;策略模型基于柔性演员评论家算法构建;将最优动作值发送给目标无人艇执行;直至完成规划路径的跟踪控制。本发明无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。
主权项:1.基于深度强化学习的水面无人艇路径跟踪方法,其特征在于,包括以下步骤:S1:将目标无人艇的路径跟踪问题转换为马尔可夫决策过程,设置对应的状态空间、动作空间和奖励函数;S2:获取目标无人艇的规划路径;步骤S2中,规划路径包括直线规划路径和曲线规划路径;1直线规划路径表示为:Ps=<p0,...,pi,pi+1,...pT,pi∈R2;式中:T表示直线规划路径的路径点数目;pi=xpi,ypi,1<=i<=T表示第i个路径点的位置坐标,R表示任意实数;曲线规划路径表示为:Pc:x-xc2+y-yc2=Rc;式中:pc=xc,yc表示曲线规划路径的圆心坐标;Rc表示曲线规划路径的路径半径;定义pt=xt,yt为目标无人艇在t时间的位置坐标表示;1对于直线规划路径,通过如下公式计算方位角和路径跟踪误差: 式中:χp表示直线规划路径下目标无人艇的方位角;表示直线规划路径下目标无人艇的路径跟踪误差;pi=xpi,ypi表示为第i个路径点的位置坐标;pi+1=xpi+1,ypi+1表示为第i+1个路径点的位置坐标;2对于曲线规划路径,通过如下公式计算方位角和路径跟踪误差:χc=arctanyt-yc,xt-xc; 式中:χc表示曲线规划路径下目标无人艇的方位角;表示曲线规划路径下目标无人艇的路径跟踪误差;pc=xc,yc表示曲线规划路径的圆心坐标;Rc表示路径半径;表示pc到p的向量;S3:根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;然后基于目标无人艇的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值;步骤S3中,通过矢量场算法根据目标无人艇的规划路径结合实时位姿信息计算参考航向角;矢量场算法通过如下公式计算参考航向角:1对于直线规划路径: 式中:χd表示直线规划路径下的参考航向角;χp表示方位角;χMs表示最大接近角,设定为0,π2];ks表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;ds表示目标无人艇到直线路径的跟踪误差;2对于曲线规划路径: 式中:χd表示曲线规划路径下的参考航向角;ρd表示曲线规划路径的路径方向,1是顺时针,-1是逆时针;χMc表示最大接近角,设定为0,π2];kc表示矢量场收敛速度的控制参数,值越大表示航向角变化的越快;χc表示曲线规划路径下目标无人艇的方位角;dc表示目标无人艇到曲线路径的跟踪误差;S4:将目标无人艇当前的状态值输入经过训练的策略模型中,输出最优的动作值;策略模型基于柔性演员评论家算法构建;训练时,基于状态空间、动作空间和奖励函数计算目标无人艇执行最优的动作值后返回的奖励值,用以更新策略模型的网络参数;步骤S4中,通过如下步骤训练策略模型:S401:初始化策略模型的网络参数,以及目标无人艇的起始位置;S402:获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成目标无人艇当前的状态值st;S403:目标无人艇当前的状态值st输入至策略模型,输出最优的动作值at;然后控制目标无人艇执行最优的动作值at,并返回对应的奖励值rt+1;S404:再次获取目标无人艇规划路径的当前路径点信息和实时位姿信息并计算当前的参考航向角,进而基于目标无人艇当前的参考航向角、实时位姿信息和环境干扰信息生成执行动作值at后的状态值st+1;然后存储并更新经验回放池D←D∪st,at,rt+1,st+1;S405:重复执行步骤S302至S304,直至到达最终路径点或达到设置的回合最大步长数;S406:从经验回放池D中抽取M个样本组成批量数据,用以训练、更新策略模型的网络参数;步骤S406中,策略模型需更新的网络参数包括Q网络和π网络的网络参数以及温度参数;Q网络的目标函数表示为: 式中;φ表示Q网络的网络参数;表示求所有策略的期望;Qφ表示动作-状态价值函数;γ表示折扣因子;Vφ表示状态价值函数;π网络的目标函数表示为: 式中:θ表示π网络的网络参数;DKL表示KL散度相似度的指标;πθ表示策略网络;Qφ表示动作-状态价值函数;γ表示折扣因子;Vφ表示状态价值函数;温度参数的目标函数表示为: 式中:α表示温度参数;表示期望;H0表示初始策略熵阈值;S5:将最优动作值发送给目标无人艇执行;S6:重复执行步骤S3至S5,直至完成规划路径的跟踪控制。
全文数据:
权利要求:
百度查询: 重庆大学 基于深度强化学习的水面无人艇路径跟踪方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。