Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于迁移强化学习的VEX机器人路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:机器人执行任务时需要具备移动控制和路径规划的能力,其中合理的路径规划能够降低时间成本、提高工作效率。针对传统路径规划在不同任务之间学习经验难以迁移的问题,本发明提出一种基于迁移强化学习的VEX机器人路径规划方法,首先,用栅格法对当前比赛场地进行划分,智能体使用强化学习设计单场比赛的最优路径,获得学习经验;接着,智能体使用迁移强化学习重用源任务的先验经验,将之迁移到下一个比赛,从而缩短了新场地的路径搜索时间。“合纵连横”和“一触即发”比赛下的仿真结果表明,相比于传统的A*算法、Dijkstra算法,本方法在降低模型训练时间的同时提高了路径规划的准确性,有效解决了高相关性路径规划任务之间的经验共享问题。

主权项:1.一种基于迁移强化学习的VEX机器人路径规划方法,本方法的应用场景为:VEX竞赛中红队和蓝队各由两支赛队组成,双方在包含前十五秒自动赛阶段和后一分四十五秒手动控制阶段的比赛中互相竞争;在自动赛阶段,各赛队的程序员根据赛季要求设计机器人避开障碍物的移动路径,以最快的速度到达目标地、完成对抗任务;其特征是所述移动路径的路径规划方法的设计步骤包括:1建立VEX机器人的路径规划模型;2利用强化学习求解单场比赛的最优路径;3利用迁移强化学习求解两场比赛的最优路径;4针对“合纵连横”和“一触即发”比赛实例进行仿真实验,评估步骤2和步骤3的所得路径的规划性能;在步骤1中,机器人的路径规划模型建立过程为:1.1将VEX机器人竞赛的比赛场地划分为一个9×9的栅格图,每个栅格宽度为l=43英尺,并将栅格属性定义为机器人的移动情况及障碍物的信息;1.2机器人在每个栅格上的移动方向定义为8种移动方向:向前、向后、向左、向右、向右前、向右后、向左后、向左前;机器人从初始栅格坐标xorigin,yorigin向目标栅格坐标xtarget,ytarget移动的过程中,令移动速度为v,则到达当前栅格坐标x,y的移动时间表示为 其中,n1和n2分别表示机器人向前、向后、向左、向右方向以及向右前、向右后、向左后、向左前方向移动的栅格总数,n=n1+n2表示机器人8个方向移动的栅格总数;定义向前为零度方向,顺时针为正向,逆时针为负向,则机器人转动角度θ的集合表示为1.3结合移动方向和转动角度,机器人在自动赛阶段的路径规划建模为如下的目标优化问题P1P1:s.t.tn≤15秒2aθ∈Θ2b其中,约束条件2a表示机器人移动时间不超过15秒,约束条件2b表示机器人有8个移动方向;在步骤2中,P1是一个非线性规划问题,利用强化学习寻找单场比赛的机器人的最优路径:针对单场比赛的路径规划,使用Q-learning探索机器人的最优路径;在步骤3中:考虑到对手更换、比赛规则变化这些实际情况,需要在上一场比赛结束后调整下一场比赛的机器人路径策略;3.1定义“合纵连横”或者“一触即发”自动赛阶段的上一场比赛的路径规划是源任务,下一场比赛的路径规划是目标任务;仅重用上一场比赛的寻路经验求出下一场比赛的最优路径;3.2“合纵连横”与“一触即发”自动赛阶段的比赛环境和机器人任务有高度相似性,则根据“一触即发”场地环境修改“合纵连横”的R表,在“合纵连横”的Q表上进行模型训练,在先验知识的指导下快速探索到新的最优路径;在步骤4中,以“合纵连横”与“一触即发”作为样例来测试步骤2和步骤3所得的路径规划,并分析和评估机器人路径规划的性能;4.1强化学习路径规划的性能分析以VEX竞赛“合纵连横”为样例展示基于Q-learning的机器人路径探索过程,验证其路径规划的性能优势;4.2迁移强化学习路径规划的性能分析将“合纵连横”一场比赛的路径规划经验迁移到另外三场比赛,验证知识在同类比赛之间迁移的可行性;同时,将“合纵连横”的路径规划经验迁移到“一触即发”比赛中,验证知识在不同类别比赛之间迁移的可行性;4.3与其它路径规划方法进行对比对比其它典型路径规划方法和步骤2和步骤3得到最优路径的性能高低。

全文数据:

权利要求:

百度查询: 南京工业大学 基于迁移强化学习的VEX机器人路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。