首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种改进的强化学习AGV路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东科技大学

摘要:本发明公开了一种改进的强化学习AGV路径规划方法,其步骤为:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;设计奖励值函数;设计SR‑PPO算法,将样本正则化项添加到PPO算法的目标函数中;基于SR‑PPO算法设计SR‑ALR‑PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合,自适应选择策略网络参数更新的学习率;基于SR‑ALR‑PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型。本发明提出了一种改进的强化学习AGV路径规划方法,基于样本正则化和自适应学习率提高了AGV的自主规划能力,获得最优无碰撞路径,最大限度地减少AGV运行时间和能耗。

主权项:1.一种改进的强化学习AGV路径规划方法,其特征在于,包括以下步骤:步骤1:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;步骤2:设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;步骤3:基于步骤1和2设计奖励值函数;步骤4:设计SR-PPO算法,将样本正则化项添加到PPO算法的目标函数中,提高PPO算法的策略选择性,进而增加AGV训练过程对工作环境的探索能力;步骤5:基于SR-PPO算法设计SR-ALR-PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR-PPO算法结合,自适应选择策略网络参数更新的学习率,提高策略的性能和收敛速度,进而提高AGV路径规划模型在训练阶段的学习速度;步骤6:基于SR-ALR-PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型;步骤6包括以下子步骤:步骤6.1、初始化强化学习算法的网络参数,包括策略网络参数κ和价值网络参数δ的初始化;策略网络包括Actor_new网络和Actor_old网络,其策略函数分别为πat|st;κ和πat|st;κold;步骤6.2、初始化环境信息,包括AGV的初始位姿、静态障碍物位置、动态障碍物位置及目标位置;步骤6.3、AGV通过传感器获取当前的状态信息st,根据策略函数πat|st;κ,选取AGV的可执行动作at,即选取合适的线速度vt和角速度ωt;步骤6.4、AGV执行动作at后进入新状态st+1,并根据设计的奖励值函数R对当前动作at进行价值评估,得到奖励值rt;步骤6.5、将样本数据st,at,rt,st+1储存在经验池中,利用经验池中的样本数据来计算样本正则化项,该样本正则化项作为附加项作用于价值网络的动作价值函数和状态价值函数,同时也作为目标函数的一部分;然后,基于样本数据计算t时刻的动作价值函数Qst,at;δ和目标函数Jκ,进而计算时序差分误差Lossδ和目标函数梯度步骤6.6、根据时序差分误差Lossδ更新价值网络参数δ,在目标函数梯度更新策略网络参数κ时引入自适应学习率α',即能够自适应的选择参数更新的方向;步骤6.7、判断是否达到回合结束条件,包括AGV与障碍物发生碰撞、到达目标点;若达到结束条件,则结束该回合,跳转至步骤6.2;否则返回步骤6.3,继续训练;步骤6.8、设置合理的训练回合数,判断策略函数是否收敛到最优策略π*,若是则保存训练完成的路径规划模型,否则跳转至步骤6.2,继续训练。

全文数据:

权利要求:

百度查询: 山东科技大学 一种改进的强化学习AGV路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术