一种水下滑翔机攻角的深度强化学习决策方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国海洋大学

摘要：本发明公开了一种水下滑翔机攻角的深度强化学习决策方法，属于水下滑翔机技术领域。本发明以滑翔机采样的深度、俯仰角、航向角为数据基础，建立包含动态攻角信息的航位推算环境动力，将深度强化学习智能体纳入航位推算过程实现攻角的自主推理，并设计基于航位推算与实测卫星定位坐标误差的奖励系统，最终实现基于攻角动态智能决策的精准水下滑翔机航位推算及速度估计。本发明可为水下滑翔机海流观测等依赖滑翔机速度参考的观测任务提供高分辨、精度改善的水下滑翔机速度信息参考。

主权项：1.一种水下滑翔机攻角的深度强化学习决策方法，其特征在于，包括具体步骤如下：步骤1：收集汇总滑翔机采样数据，包括：滑翔机深度d、俯仰角P、航向角H；步骤2：确定航位推算控制参数；步骤3：实施强化学习攻角决策系统的初始化，采用带经验库的执行者-评论者网络推理水下滑翔机的攻角；所述执行者-评论者强化学习框架包含四套网络结构，分别为：执行者评估网络Ae、执行者目标网络At、评论者评估网络Ce和评论者目标网络Ct；步骤4：实施水下滑翔机航位推算过程的初始化；步骤5：确定强化学习攻角决策系统的状态和动作；步骤6：执行航位推算的前向环境动力过程：强化学习攻角决策系统输出的αi，结合滑翔机深度di、俯仰角Pi、航向角Hi的采样数据，依次计算滑翔机的水平速度vhi、水平速度的北向分量vyi和东向分量vxi、以及滑翔机的水平位移xi,yi；接下来，根据滑翔机的水平位移更新disi，并基于更新后的距离确定强化学习奖励Ri；步骤7：收集强化学习经验库；强化学习的经验由状态Oi、动作αi、奖励Ri以及转移状态O’i构成，随训练回合推进依次加入经验库，经验库存储完毕则弹出最初经验；步骤8：从强化学习经验库采样并训练执行者和评论者网络：训练过程首先从经验库采集批处理容量大小的经验；采集的第k组经验中，O’k通过At计算状态转移动作，并通过Ct计算动作-状态价值的真值QTk；Ok通过Ae计算动作-状态价值的预测值QPk；再通过QTk与QPk之间的均方误差计算评论者损失Closs；由于执行者模块的目标是最大化评论者模块的输出，因此，首先通过Ae推理Ok的动作，并将该动作输入Ce计算动作-状态价值，其负值即为执行者损失Aloss；求得损失后，实施参数梯度的反向传播，实现执行者-评论者评估网络的更新；步骤9：采用episilon-greedy机制探索参数衰减：带衰减的epsilon-greedy动作决策方式，为在动作决策步骤内生成一随机数Γ，若小于ε参数，则在动作分布内随机抽取动作；若大于ε参数，则基于执行者评估网络确定动作；每一步推理过后，ε参数按衰减因子衰减，从而逐步降低自主探索的概率；步骤10：通过最大化回合奖励引导强化学习攻角决策的改进，即通过基于推算航位误差的奖励引导滑翔机攻角的决策改进：强化学习攻角决策系统的奖励Ri为负的滑翔机当前水平位置与末端卫星定位坐标的距离disi，关于初始距离dis0的比值：Ri=-disidis0，强化学习攻角决策系统每一回合的奖励Re为全体决策步的奖励之和；因此，序贯决策的攻角对滑翔机航位推算通过回合奖励评估，通过最大化回合奖励，实现以最小化末端卫星定位坐标距离disi的攻角决策目标；步骤11：输出奖励获取表现最好的网络参数及攻角序列。

全文数据：

权利要求：

百度查询：中国海洋大学一种水下滑翔机攻角的深度强化学习决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种螺杆空压机的自动润滑装置

下一篇：一种熔接头焊接模具

相关技术

一种螺杆空压机的自动润滑装置

一种熔接头焊接模具

建筑施工用模板夹具

一种混凝土抗水检测装置

一种微型CO₂捕集液化装置

一种微波毫米环形器用的组装治具

一种设有外包透明管的机电安装吊杆结构

一种压滤机滤板油缸液压系统

一种蔬菜种植用培育防虫装置

电芯、电池及用电设备

一种高效化工用尾气吸收塔

一种展示单元架

学习相关技术

预测装置、学习装置及学习方法_龟甲万株式会社_202280091168.0

英语分层学习方法及系统_深圳英卓教育科技有限公司_202410776546.X

使用周期数据的机器学习_脸萌有限公司_202380020610.5

一种分数学习盘_福建省诺达轻工股份有限公司_202420254383.4

量化稳健联合机器学习_高通股份有限公司_202380017780.8

信息处理装置、推论装置、机器学习装置、信息处理方法、推论方法及机器学习方法_株式会社荏原制作所_202380020814.9

信息处理装置、推论装置、机器学习装置、信息处理方法、推论方法及机器学习方法_株式会社荏原制作所_202380019756.8

用于整数深度学习原语的动态精度管理_英特尔公司_201810420883.X

一种机器学习多角度扫描装置_南京邮电大学通达学院_202420399308.7

基于机器学习的压缩空气泄漏检测_生态植物科技创新有限公司_202410286957.0

深度相关技术

一种机械式钻孔缝槽深度测定装置及缝槽深度测定方法_中煤科工集团沈阳研究院有限公司_202410750229.0

用于整数深度学习原语的动态精度管理_英特尔公司_201810420883.X

用于桥梁时序异常分类的深度聚类方法_高速铁路建造技术国家工程研究中心_202410786242.1

一种土地测绘用河沟深度测量装置_内蒙古申九信息技术有限公司_202410773701.2

一种环形槽深度检具_无锡海格测控技术有限公司_202323615934.X

基于深度学习的时序点云数据增强方法_华南理工大学_202111666209.8

基于融合相似度的深度跨模态哈希方法_华南理工大学_202111548953.8

一种翻土深度可调节的翻土机_云南楚贡农业开发有限公司_202420292536.4

一种基于深度学习的数据挖掘方法_成都锦城学院_202411135045.X

滑轮夹持式深度信号发生器_台州市迪信勘察仪器有限公司_202323480339.X

强化相关技术

一种再生骨料强化装置_湖北慧迪长盛科技有限公司_202420317751.5

一种强化沸腾传热的微柱和金属霜复合结构_天津大学_202410690432.3

一种双金属带锯条激光强化装置及方法_湖南泰嘉新材料科技股份有限公司_202410958892.X

一种机械零件表面强化用形变控制装置_如东鑫春机械有限公司_202323616273.2

一种石墨烯稀土复合强化汽车铝车轮的制造方法_江苏凯特汽车部件有限公司_202210695920.4

一种强化型高温干化灰化装置_湖南悦恺智能科技有限公司_202420011005.3

基于数字孪生与强化学习的果园环境监测装置_嘉应学院_202410696896.5

一种强化TP触摸屏边缘的夹具结构_信利光电股份有限公司_202323376595.4

一种基于多Agent强化学习的边缘计算任务调度方法_南京博裕物联科技有限公司_202411127783.X

一种基于深度强化学习的转台伺服系统控制方法_长春工业大学_202410691545.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种水下滑翔机攻角的深度强化学习决策方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务