Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 天津大学周圆获国家专利权

天津大学周圆获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉天津大学申请的专利一种基于深度强化学习的无人船路径跟踪控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119882740B

龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510044485.2,技术领域涉及:G05D1/43;该发明授权一种基于深度强化学习的无人船路径跟踪控制方法是由周圆;巩崇伟;陈克然设计研发完成,并于2025-01-11向国家知识产权局提交的专利申请。

一种基于深度强化学习的无人船路径跟踪控制方法在说明书摘要公布了:本发明涉及一种基于深度强化学习的无人船路径跟踪控制方法,包括以下步骤:步骤1、构建融合多元环境要素的时变海洋环境模型;步骤2、基于步骤1的海洋环境模型将无人船路径跟踪控制问题建模为基于马尔可夫决策过程的求解框架;步骤3、基于步骤2的求解框架,使用改进的TwinDelayedDeepDeterministicpolicygradientTD3算法对无人船路径跟踪控制进行优化求解;步骤4、使用步骤3中训练好的策略神经网络控制无人船执行路径跟踪任务。本发明提出的基于深度强化学习的无人船路径跟踪控制方法采用改进的TD3算法进行策略训练与优化,显著地提高了控制策略的收敛速度,实现了在动态和复杂的海洋环境中准确且可靠的路径跟踪效果。

本发明授权一种基于深度强化学习的无人船路径跟踪控制方法在权利要求书中公布了:1.一种基于深度强化学习的无人船路径跟踪控制方法,其特征在于: 实施方法具体包括以下步骤: 步骤1、构建融合多元环境要素的时变海洋环境模型; 构建融合多元环境要素的时变海洋环境模型,包括:从国家海洋科学数据中心获取南海部分区域113.5°E-115.5°E,17.25°Nto19.25°N的洋流与风场环境数据;利用网格方法将该区域划分为120×120的网格,并通过逆距离加权插值法将洋流与风场环境数据插值到网格环境中;设置环境数据变化时间窗来描述海洋环境的动态变化; 当USV处于位置P时,某时刻t下的环境数据表示为: 式中IPt为USV在位置P和时间t下通过流速剖面仪和风速计等传感器实时接收到的环境信息,和分别表示洋流的横向速度和纵向速度,和分别表示风的横向速度和纵向速度; 非网格点位置P的环境数据It可以由周围4个相邻网格点Pii=1,...,4处的环境数据Iit进行距离加权得到,由下式计算: 步骤2、基于步骤1的海洋环境模型将无人船路径跟踪控制问题建模为基于马尔可夫决策过程的求解框架,所述步骤2建模内容具体包括马尔可夫决策过程的状态空间S、动作空间A、奖励函数R、状态转移关系P、折扣因子γ: 其中,状态空间S表示无人船感知到的状态信息s的集合,包括运动参数信息sm,环境信息se,LOS制导信息sLOS,第t个控制时刻内的状态st表示为: st={sm,se,sLOS} 式中:运动参数信息sm={x,y,U,ψ},其中x,y为无人船的当前位置,U和ψ分别为无人船的当前速度和航向角;如步骤1所述环境数据,环境信息se=IPt;LOS制导信息sLOS=ψd,xe,ye,其中ψd为无人船的理想航向角,xe和ye分别为纵向跟踪误差和横向跟踪误差;采用LOS制导法计算期望航向角和跟踪误差以提高跟踪精度,期望航向角可以表示为: 式中,ψk为跟踪路径的斜率,Δ为无人船的前视距离,β为侧滑角; 对于位置x,y的无人船跟踪参数化的路径Pkt,跟踪误差可以表示为: 其中,动作空间A表示无人船的动作a的集合,第t个控制时刻的动作at定义为无人船的输出速度和航向角,通过控制方向舵的方向来控制航向角,同时控制螺旋桨的推力来调节无人船的速度,如下式: 式中,Ut表示无人船的速度,表示无人船的航向角; 其中,奖励函数R定义了无人船在不同状态st和动作at下获得的奖励信号rt,用于指导控制策略的学习和决策过程,定义如下: 式中,K1和K2是分配给不同误差惩罚项的比例参数,tstep为总的控制时间;此外,当无人船成功完成跟踪任务时,它将获得巨大的奖励激励;但是,如果无人船未能在指定的步数内进行跟踪或偏离跟踪区域,它将受到巨大的惩罚; 其中,状态转移关系定义为无人船进行动作决策后从当前的环境状态更新为下一状态的概率,如下式: PSt+1|St×[A]t=ρ 式中,ρ为环境转移率,在无人船路径跟踪环境中取值为1; 其中,折扣因子定义为γ,是0到1之间的一个值,表示未来奖励的重要性;折扣因子γ越大,表示越关注长期的奖励对控制策略的影响; 步骤3、基于步骤2的求解框架,使用改进的TwinDelayedDeepDeterministicpolicygradientTD3算法对无人船路径跟踪控制进行优化求解,具体步骤包括: 3.1对海洋环境进行初始化,对改进TD3算法的actor策略神经网络和critic价值神经网络进行网络参数初始化处理,设置经验重放缓冲区; 3.2无人船智能体与海洋环境进行交互,交互过程与步骤2一致;将无人船的状态信息输入到actor策略网络中,通过前向传播计算actor策略网络的输出动作,无人船执行动作后进行状态转移并计算奖励;在此交互过程中采集经验数据存入经验重放缓冲区;重复执行该步骤,直到经验重放缓冲区存满; 3.3Critic价值网络使用Q值函数评估actor策略网络的表现,并指导其下一阶段的更新;actor策略网络通过改变策略π以获得更高的奖励来确定采取更优的动作; 3.4使用两个状态价值网络来解决Q值函数过高估的问题,下一个状态st+1的Q值可以由两个目标价值网络估计: 式中,Q′1和Q′2分别为两个价值网络的目标Q值,π′为目标策略网络的策略,θμ′为目标策略网络的参数,和分别为两个目标价值网络的参数; 选择较小的一个目标Q值,根据贝尔曼方程,价值网络的目标值计算为: 3.5根据优先经验采样机制,从经验重放缓冲区中采样N个经验样本进行网络更新,将状态集合S和动作集合A输入到价值神经网络中,通过反向传播更新神经网络的参数;通过下式构造价值网络的损失函数,指导策略的学习与优化: 3.6通过最小化损失函数和梯度下降更新critic价值网络的参数: 式中是损失函数的梯度,是Q值的梯度,α1为价值网络的学习速率; 3.7使用策略延迟更新机制提高策略网络更新的稳定性,策略网络采用比价值网络更低的频率进行更新;通过梯度上升使策略网络向提高Q值的方向更新参数θμ: 式中,是目标函数Jθμ的梯度,是策略πst|θμ的梯度,α2为策略网络的学习速率; 3.8采用软更新机制对目标网络的参数和θμ′进行更新,使当前的网络以较小的更新速率逐步更新目标网络,由下式表示: θμ′←εθμ+1―εθμ′ 式中,ε为软更新速率; 3.9重复执行步骤3.2-3.8若干训练次数,最终获得控制策略优异的策略网络; 步骤4、使用步骤3中训练好的策略神经网络控制无人船执行路径跟踪任务,具体步骤包括: 4.1初始化海洋环境,加载训练好的策略神经网络参数; 4.2将无人船的初始环境状态输入步骤3训练好的策略网络,经前向传播推理获得无人船的速度及航向控制动作; 4.3无人船在海洋环境中执行输出动作,跟踪参考路径,并转移到新的状态; 4.4将新获得的状态信息输入到策略网络中,为无人船生成新的控制动作; 4.5循环进行4.3和4.4步骤,直到无人船完成对参考路径的路径跟踪任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300110 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。