买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请公开了一种基于深度强化学习的无人船航行控制参数智能匹配方法,涉及无人船技术领域,该方法针对无人艇航行控制参数难以调节的问题,通过设计基于近端策略优化方法的强化学习网络模型,利用试验数据自动学习控制策略模型,从而可以基于状态变量智能匹配得到相应的控制策略继而得到航行控制参数,可以实现对不同船型和不同环境的航行控制参数自适应匹配,将调参经验直接复制到其他船型或环境中去,从而有效提高航行控制器的泛化能力,有效提高无人船在复杂环境下的航行效率。
主权项:1.一种基于深度强化学习的无人船航行控制参数智能匹配方法,其特征在于,所述方法包括:获取待控制无人船及其所在环境的航行状态实测数据;基于所述航行状态实测数据构建状态变量,将所述状态变量输入控制策略模型得到输出的控制策略,所述控制策略模型是预先训练得到的基于近端策略优化方法的强化学习网络模型;基于所述控制策略得到所述待控制无人船的航行控制参数,按照所述航行控制参数控制所述待控制无人船沿着目标航迹航行;所述控制策略模型根据输入的状态变量输出控制策略包括:根据所述航行状态实测数据中包括的所述待控制无人船的实时位置和实时的航速,结合所述待控制无人船的目标航迹和目标航速确定所述待控制无人船当前所处的航行阶段,所述待控制无人船所处的航行阶段包括航行调整阶段、稳定跟踪阶段和航行结束阶段:当待控制无人船的实时位置与目标航迹的航迹终点之间的偏差值不大于终点偏差阈值时,确定待控制无人船处于航行结束阶段;当待控制无人船的实时位置与目标航迹的航迹终点之间的航迹终点偏差值大于终点偏差阈值,且待控制无人船的实际位置与目标航迹之间的位置偏差值小于航迹偏差阈值,且待控制无人船的航速与目标航速之间的航速偏差值小于航速偏差阈值时,确定待控制无人船处于稳定跟踪阶段;否则,确定待控制无人船处于航行调整阶段;根据所述航行阶段对应的策略映射关系确定与所述状态变量对应的控制策略并输出;其中,不同航行阶段对应不同的策略映射关系,相同的状态变量在不同的策略映射关系中对应不同的控制策略,一组状态变量在每个航行阶段的策略映射关系中对应的控制策略,用于控制所述待控制无人船调整航行状态以优先满足所述航行阶段对应的控制需求;所述方法还包括:建立基于近端策略优化方法的强化学习网络模型并初始化网络参数;获取样本无人船的样本状态变量,样本状态变量包括样本无人船的航行状态实测数据;将样本无人船的样本状态变量输入构建的强化学习网络模型得到控制策略;基于控制策略得到所述样本无人船的航行控制参数并控制所述待控制无人船运动以改变航行状态实测数据,并按照奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值;重复执行所述将样本无人船的样本状态变量的步骤,构建得到多组样本数据,每组样本数据包括样本状态变量、控制策略以及对应的奖励值;利用多组样本数据对所述强化学习网络模型进行模型训练,直至训练得到所述控制策略模型,所述控制策略模型反映使得奖励值最优的状态变量与控制策略之间的策略映射关系;所述奖励函数基于所述样本无人船的多项评价指标计算得到,每项评价指标基于所述样本无人船改变前后的航行状态实测数据计算得到,不同航行阶段对应不同的奖励函数,则按照奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值,包括:按照所述样本无人船当前所处的航行阶段对应的奖励函数基于所述样本无人船改变前后的航行状态实测数据计算得到奖励值;训练得到的所述控制策略模型反映在每个航行阶段下使得奖励值最优的状态变量与控制策略之间的策略映射关系;不同航行阶段的奖励函数包括的评价指标不同,且每个航行阶段的奖励函数包括的评价指标与所述航行阶段的控制需求匹配:航行调整阶段对应的奖励函数使用的评价指标包括位置偏差值和航速偏差值,位置偏差值是航行状态实测数据包括的实时位置与目标航迹之间的距离偏差值,航速偏差值是航行状态实测数据包括的实时的航速与目标航速之间的偏差值;航行调整阶段对应的奖励函数为,是基于改变前的航行状态实测数据计算得到的位置偏差值,是基于改变前的航行状态实测数据计算得到的航速偏差值,是基于改变后的航行状态实测数据计算得到的位置偏差值,是基于改变后的航行状态实测数据计算得到的航速偏差值;稳定跟踪阶段对应的奖励函数使用的评价指标包括航向偏差角和舵角,航向偏差角是航行状态实测数据包括的航向与目标航迹的航向之间的偏差值,稳定跟踪阶段对应的奖励函数为,是基于改变前的航行状态实测数据计算得到的航向偏差角,是改变前的航行状态实测数据包括的舵角,是基于改变后的航行状态实测数据计算得到的航向偏差角,是改变后的航行状态实测数据包括的舵角;航行结束阶段对应的奖励函数使用的评价指标包括航迹终点偏差值,航迹终点偏差值是航行状态实测数据包括的实时位置与目标航迹的航迹终点之间的距离偏差值;航行结束阶段对应的奖励函数为,是基于改变前的航行状态实测数据计算得到的航迹终点偏差值,是基于改变后的航行状态实测数据计算得到的航迹终点偏差值。
全文数据:
权利要求:
百度查询: 中国船舶科学研究中心 基于深度强化学习的无人船航行控制参数智能匹配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。