一种基于改进Sarsa算法的路径规划方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工程大学

摘要：一种基于改进Sarsa算法的路径规划方法，属于强化学习和路径规划领域。本发明为了解决基于传统Sarsa算法的路径规划过程存在规划收敛速度较慢、规划效率较低的问题。本发明针对于待进行路径规划的区域建立地图模型，引入路径矩阵Ps，a，在智能体探索的过程中，动态调整贪婪因子ε，采用ε‑greedy策略进行动作选择，智能体采取动作a后，环境会反馈一个奖励R并进入到下一个状态s′；并基于路径矩阵更新Q值表，从而基于改进的Sarsa算法实现路径规划。主要用于机器人的路径规划。

主权项：1.一种基于改进的Sarsa算法的路径规划方法，包括如下步骤：针对于待进行路径规划的区域建立地图模型，即在坐标轴上搭建起二维仿真环境，并根据实际环境在地图上设置陷阱和目标位置；智能体的在环境中的坐标为x，y，对应为智能体的状态s，智能体在地图中的动作空间包括上、下、左、右四个动作，通过环境坐标与动作建立Q值表；智能体基于Sarsa算法实现路径规划；其特征在于，智能体基于Sarsa算法实现路径规划的过程包括以下步骤：S1、初始化Q值表、状态s、路径矩阵Ps，a和贪婪因子ε；路径矩阵Ps，a用来保存当前回合智能体在环境中走过路径的状态s和动作a；S2、智能体开始探索，对于每次迭代执行以下步骤：在状态s时，智能体采用ε-greedy策略进行动作选择；智能体采取动作a后，环境会反馈一个奖励R并进入到下一个状态s′；更新Q值表：Qs，a←Qs，a+α[R+γQs′，a′-Qs，a][Ps，a]其中，s′与a′表示下一步的状态和动作，γ表示折扣因子；Qs，a为Q值表中的Q值，R为奖励；在每一次用ε-greedy策略进行动作选择时，对于回合中的每一步，将ε按下式进行更新：表示对该轮次路径矩阵中所有值进行累加并除累加次数N的对应量，action_space表示动作空间；S3：判断当前位置是否是目标位置或陷阱，如果是，则结束该回合的智能体探索，同时判断是否达到收敛条件，未达到收敛条件则返回S1开始新一轮的探索；如果当前位置不是目标或者陷阱回到S2继续探索；当智能体获得了最优解后便结束探索。

全文数据：

权利要求：

百度查询：哈尔滨工程大学一种基于改进Sarsa算法的路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：适用于颗粒流体的异径多曲率耐磨弯管

下一篇：水稻种植的种子催芽器

相关技术

适用于颗粒流体的异径多曲率耐磨弯管

水稻种植的种子催芽器

一种油田油泥废水处理装置

一种基于NFC的车载启动控制电路

一种农艺地表喷灌装置

一种用于种猪场的污水综合处理管理装置

一种便于PCB进行高压测试的结构

一种防止鸡蛋污染的清洗装置

一种产品脱模的吹气结构

一种桥台背路基沉降修复结构

一种螺旋轴固定结构

油田管道防腐漆喷涂装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于改进Sarsa算法的路径规划方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务