买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开一种规则约束下基于深度强化学习的船舶避碰决策方法。该方法考虑船舶操纵特性,引入MMG模型,通过该模型推断船舶实时的航行信息。然后设计了分场景、考虑驾驶经验的状态空间和动作空间定义方法,并提出了避碰决策网络构建和训练框架。此外,为了充分考虑规则,设计了一套分层的奖励函数组合,并将其用于后期决策网络的训练。随后通过引入DQN算法,构建了避碰决策网络训练模型,并经过大量的训练获得了可适用于不同场景的避碰决策网络。最后,为了验证所提方法的适用性,设计了多种仿真测试场景进行了综合性能评价。该方法能够使船舶在复杂环境下安全避碰,同时保证其符合规则和良好船艺的要求。
主权项:1.一种规则约束下基于深度强化学习的船舶避碰决策方法,其特征在于,包括:识别会遇场景;根据会遇场景的不同,定义三种状态空间,分别为多船会遇、两船会遇及静态障碍物避让场景中的状态空间;其中,多船会遇场景中的状态空间由4部分组成且包含22个元素,两船会遇场景中的状态空间由3部分组成且包含8个元素,静态障碍物避让场景中的状态空间由3部分组成且包含6个元素;针对识别出的会遇场景,使用与该会遇场景对应的决策网络执行船舶避碰决策,其中,与该会遇场景对应的决策网络由该会遇场景所对应的奖励函数训练得到,且所述奖励函数是结合针对该会遇场景的避碰规则来设置;所述奖励函数分层设置,其中,第一层是基础层,基础层中定义的奖励函数考虑船舶避碰过程中的安全性、通用的操船经验及良好船艺,所有的船舶会遇场景都需要执行该基础层中的奖励函数;第二层是规则层,规则层中定义的奖励函数针对避碰规则对不同会遇场景的避让要求进行设计,该规则层中的奖励函数并不需要船舶全部去执行,仅需要按照实际的会遇场景选择相应的奖励函数进行执行;船舶最终获得的奖励函数值是基础层与规则层奖励函数的总和;基础层中定义的奖励函数包括目标奖励函数、前进奖励函数、碰撞奖励函数、舵角奖励函数和偏航奖励函数;规则层中定义的奖励函数包括直航船奖励函数、让路船奖励函数、对遇场景奖励函数、交叉会遇场景奖励函数和追越场景奖励函数;在分层奖励函数组合的基础上,引入DQN算法对决策网络进行训练;输出应该执行的避碰动作。
全文数据:
权利要求:
百度查询: 武汉理工大学 一种规则约束下基于深度强化学习的船舶避碰决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。