基于深度强化学习的无人船航行控制参数智能匹配方法

导航：龙图腾网> 最新专利技术> 基于深度强化学习的无人船航行控制参数智能匹配方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本申请公开了一种基于深度强化学习的无人船航行控制参数智能匹配方法，涉及无人船技术领域，该方法针对无人艇航行控制参数难以调节的问题，通过设计基于近端策略优化方法的强化学习网络模型，利用试验数据自动学习控制策略模型，从而可以基于状态变量智能匹配得到相应的控制策略继而得到航行控制参数，可以实现对不同船型和不同环境的航行控制参数自适应匹配，将调参经验直接复制到其他船型或环境中去，从而有效提高航行控制器的泛化能力，有效提高无人船在复杂环境下的航行效率。

主权项：1.一种基于深度强化学习的无人船航行控制参数智能匹配方法，其特征在于，所述方法包括：获取待控制无人船及其所在环境的航行状态实测数据；基于所述航行状态实测数据构建状态变量，将所述状态变量输入控制策略模型得到输出的控制策略，所述控制策略模型是预先训练得到的基于近端策略优化方法的强化学习网络模型；基于所述控制策略得到所述待控制无人船的航行控制参数，按照所述航行控制参数控制所述待控制无人船沿着目标航迹航行；所述控制策略模型根据输入的状态变量输出控制策略包括：根据所述航行状态实测数据中包括的所述待控制无人船的实时位置和实时的航速，结合所述待控制无人船的目标航迹和目标航速确定所述待控制无人船当前所处的航行阶段，所述待控制无人船所处的航行阶段包括航行调整阶段、稳定跟踪阶段和航行结束阶段：当待控制无人船的实时位置与目标航迹的航迹终点之间的偏差值不大于终点偏差阈值时，确定待控制无人船处于航行结束阶段；当待控制无人船的实时位置与目标航迹的航迹终点之间的航迹终点偏差值大于终点偏差阈值，且待控制无人船的实际位置与目标航迹之间的位置偏差值小于航迹偏差阈值，且待控制无人船的航速与目标航速之间的航速偏差值小于航速偏差阈值时，确定待控制无人船处于稳定跟踪阶段；否则，确定待控制无人船处于航行调整阶段；根据所述航行阶段对应的策略映射关系确定与所述状态变量对应的控制策略并输出；其中，不同航行阶段对应不同的策略映射关系，相同的状态变量在不同的策略映射关系中对应不同的控制策略，一组状态变量在每个航行阶段的策略映射关系中对应的控制策略，用于控制所述待控制无人船调整航行状态以优先满足所述航行阶段对应的控制需求；所述方法还包括：建立基于近端策略优化方法的强化学习网络模型并初始化网络参数；获取样本无人船的样本状态变量，样本状态变量包括样本无人船的航行状态实测数据；将样本无人船的样本状态变量输入构建的强化学习网络模型得到控制策略；基于控制策略得到所述样本无人船的航行控制参数并控制所述待控制无人船运动以改变航行状态实测数据，并按照奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值；重复执行所述将样本无人船的样本状态变量的步骤，构建得到多组样本数据，每组样本数据包括样本状态变量、控制策略以及对应的奖励值；利用多组样本数据对所述强化学习网络模型进行模型训练，直至训练得到所述控制策略模型，所述控制策略模型反映使得奖励值最优的状态变量与控制策略之间的策略映射关系；所述奖励函数基于所述样本无人船的多项评价指标计算得到，每项评价指标基于所述样本无人船改变前后的航行状态实测数据计算得到，不同航行阶段对应不同的奖励函数，则按照奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值，包括：按照所述样本无人船当前所处的航行阶段对应的奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值；训练得到的所述控制策略模型反映在每个航行阶段下使得奖励值最优的状态变量与控制策略之间的策略映射关系；不同航行阶段的奖励函数包括的评价指标不同，且每个航行阶段的奖励函数包括的评价指标与所述航行阶段的控制需求匹配：航行调整阶段对应的奖励函数使用的评价指标包括位置偏差值和航速偏差值，位置偏差值是航行状态实测数据包括的实时位置与目标航迹之间的距离偏差值，航速偏差值是航行状态实测数据包括的实时的航速与目标航速之间的偏差值；航行调整阶段对应的奖励函数为，是基于改变前的航行状态实测数据计算得到的位置偏差值，是基于改变前的航行状态实测数据计算得到的航速偏差值，是基于改变后的航行状态实测数据计算得到的位置偏差值，是基于改变后的航行状态实测数据计算得到的航速偏差值；稳定跟踪阶段对应的奖励函数使用的评价指标包括航向偏差角和舵角，航向偏差角是航行状态实测数据包括的航向与目标航迹的航向之间的偏差值，稳定跟踪阶段对应的奖励函数为，是基于改变前的航行状态实测数据计算得到的航向偏差角，是改变前的航行状态实测数据包括的舵角，是基于改变后的航行状态实测数据计算得到的航向偏差角，是改变后的航行状态实测数据包括的舵角；航行结束阶段对应的奖励函数使用的评价指标包括航迹终点偏差值，航迹终点偏差值是航行状态实测数据包括的实时位置与目标航迹的航迹终点之间的距离偏差值；航行结束阶段对应的奖励函数为，是基于改变前的航行状态实测数据计算得到的航迹终点偏差值，是基于改变后的航行状态实测数据计算得到的航迹终点偏差值。

全文数据：

权利要求：

百度查询：中国船舶科学研究中心基于深度强化学习的无人船航行控制参数智能匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于Agent的分布式HTTPS代理系统和方法

下一篇：一种下肢康复智能训练仪

相关技术

一种基于Agent的分布式HTTPS代理系统和方法

一种下肢康复智能训练仪

通信方法、电子设备及存储介质

一种压力波动结合酶联提取制备龙胆提取物的方法

一种高强韧性风电轴承钢及制法、用途和一种风电轴承

一种粮储用地上、地下多层楼房仓

一种高层建筑多模爬升模板及其施工方法

用于发光二极管芯片的互连

核桃油指纹图谱构建及掺假鉴别用平台系统

一种天然气比例掺氢配比设备

一种水性环保防腐涂料制备装置及方法

一种蒸压轻质加气混凝土砌块生产用成型设备

航行相关技术

一种民航行李托运装置_天津民航科技有限公司_202420663568.0

一种船用LED航行信号灯_大连科信智控科技有限公司_202420578700.8

基于导航定位的无人机航行控制方法_郑州航空工业管理学院_202411086409.X

一种水下仿生航行器的最节能摆动参数组合方法_南京欧帕提亚信息科技有限公司_202310908740.4

一种水下航行器的地形导航方法、装置、设备及存储介质_哈尔滨工程大学三亚南海创新发展基地_202411487837.3

面向子母船自主协同航行的域控制器系统_武汉理工大学_202411452811.5

基于深度强化学习的无人船航行控制参数智能匹配方法_中国船舶科学研究中心_202311333638.2

一种开放式智能船的航行算法测评系统_上海船舶运输科学研究所有限公司_202410981544.4

一种水下作业总成以及具备作业能力的水下航行器_天津大学_202410737238.6

一种基于示功图的水下航行器舵装置故障检测方法_中国船舶集团有限公司第七〇七研究所_202411037399.0

控制相关技术

控制器、控制方法和控制程序_瑞萨电子株式会社_201911157764.0

控制装置、控制系统、控制方法和控制程序_矢崎总业株式会社_202410639467.4

温度控制装置及温度控制方法_松下新能源株式会社_202380033633.X

灯光控制方法及控制器_深圳市彩斓光电科技有限公司_202210739545.9

切割系统、控制方法及控制装置_武汉锐科光纤激光技术股份有限公司_202411092971.3

控制装置_本田技研工业株式会社_202410557528.2

用于渔线轮的独立智能控制装置、控制系统及控制方法_宁波市泷泽渔具有限责任公司_202411102413.0

一种稳定控制的手术床液压控制系统及其控制方法_上海华岛液压设备制造有限公司_202411116683.7

电梯控制装置、电梯系统、电梯控制方法及电梯控制程序_三菱电机楼宇解决方案株式会社_202311071864.8

一种列车运行的控制方法、地面控制设备和控制系统_青岛海信微联信号有限公司_202411010590.6

参数相关技术

水质参数反演模型训练方法、水质参数反演方法、终端及介质_中国科学院上海高等研究院_202211537762.6

一种结构参数确定方法_上海精测半导体技术有限公司_202411076797.3

MCU参数测试系统及方法_珠海极海半导体有限公司_201910784376.9

一种水质检测参数自动校准装置_宁波万泽微测环境科技股份有限公司_202420543875.5

参数发送和接收的方法、装置和通信系统_富士通株式会社_202280094959.9

制造设备制造参数调整控制系统及其方法_英业达科技有限公司_202011335344.X

参数调节电路及电源电路、电器设备_美智光电科技股份有限公司_202420884653.X

一种环形缝隙流体参数测量装置_常熟理工学院_202411232367.6

基于预训练模型参数融合的模型微调方法_浙江大学_202410989398.X

一种台式多参数水质分析仪_深圳市博辰智控有限公司_202420518687.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于深度强化学习的无人船航行控制参数智能匹配方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务