买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:沈阳建筑大学
摘要:本发明公开了基于D3QN‑PER移动机器人路径规划方法,首先进行环境建模,设计完整实验环境;利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息So;利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息SR、目标位置以及步骤S1.1提取的所有障碍物信息So变换到局部坐标系下;移动机器人及障碍物质点处理,设计完整的实验环境;搭建深度强化学习方法的框架;将获取的环境状态s描述为24维向量;最后进行训练模型,获取路径规划策略,本发明即提升移动机器人自主避障的能力,有利于降低移动机器人全局运动规划难度,同时也延伸了移动机器人的应用范围,具备较强的科研和应用价值。
主权项:1.基于D3QN-PER移动机器人路径规划方法,分为环境建模、搭建深度强化学习方法的框架和训练模型三个阶段,其特征在于:具体按以下步骤:S1:环境建模,设计完整实验环境;S1.1:利用移动机器人上的单线激光雷达对所处于当前环境进行观察,并提取出移动机器人所处于当前环境中的所有障碍物信息;S1.2:利用移动机器人运动学模型,将全局坐标系下的移动机器人自身状态信息、目标位置以及步骤S1.1提取的所有障碍物信息变换到局部坐标系下;S1.3:移动机器人及障碍物质点处理,设计完整的实验环境;S2:搭建深度强化学习方法的框架;S2.1:将获取的环境状态s描述为24维向量;S2.2:将移动机器人的连续动作空间中对应的动作进行离散化,设计D3QN网络输出的决策离散动作空间;S2.3:设计移动机器人的学习目标,其内容为躲避当前环境中的障碍物,朝着目标前进,直到抵达目标停止,通过奖励函数评估是否完成学习目标,奖励函数由到达目标位置奖励、碰撞障碍物惩罚两部分组成;S2.4:确定探索策略,首先,Q值网络输出步骤2.2设置的动作对应的去拟合状态价值函数,通过相应的探索规则选择当前时刻的决策动作;S2.5:评价函数可以评估当下决策动作的好坏,指导移动机器人进行决策;利用DoubleDQN的思想和DuelingDQN的结构搭建D3QN网络去拟合状态价值函数,从而评估决策动作的累积奖励,获取最优的状态价值函数;S3:训练模型,获取路径规划策略;S3.1:处理移动机器人自身状态信息及环境障碍物状态信息;S3.2:将训练过程中获取的数据作为四元组存储到经验回放池中,作为数据备份;S3.3:采用改进的优先经验回放机制对回放经验池中数据进行小批量采样;S3.4:将S3.3中数据送入S2搭建的D3QN模型中进行,计算目标Q值和时间差分误差TD-error,进而更新优先回放经验机制中优先级P;S3.5:通过随机梯度下降法计算损失函数,不断更新D3QN网络的权重参数;S3.6:循环训练,满足完成学习目标和设置回合数,获取训练好的路径规划策略,可以应用于在未知环境移动机器人的路径规划。
全文数据:
权利要求:
百度查询: 沈阳建筑大学 基于D3QN-PER移动机器人路径规划方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。