首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的机器人自主抓推控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:郑州大学

摘要:本发明公开了一种基于强化学习的机器人自主抓推控制方法,采用两个全卷积动作价值函数,分别执行相应的推动和抓握动作,每个全卷积动作价值函数将视觉观察映射到Q学习算法的最佳动作预测,在V‑REP仿真软件中添加UTR5机器人并固定RGB‑D相机,RGB‑D相机获取图像数据,经处理得到高度图,将高度图旋转为16个方向作为全卷积神经网络的输入,在混合分散系数影响下分别输出推和抓动作的Q值预测,根据当前推和抓动作的最大Q值预测选择动作,推动作的奖励由推动作是否使当前场景更利于抓取设计,当推动动作使场景中物块的分布更为分散时给予正奖励。本发明优化了学习网络训练过程,从而使机器人根据实时训练结果做出最有利的抓取和推动动作决策。

主权项:1.一种基于强化学习的机器人自主抓推控制方法,其特征在于,包括以下步骤:步骤1:使用V-REP软件搭建仿真平台模拟杂乱环境,包括RGB-D相机、UR5机器人、RG2机械爪、若干物块和工作区域;步骤2:设计复杂场景下推抓动作、末端执行器移动策略和旋转角度;步骤3:设计基于结合混合分散系数的神经网络模型;步骤4:通过RGB-D相机获取的图像得到高度图,并计算混合分散系数M;步骤5:基于强化学习的机器人自主抓推Q值预测;将高度图旋转为16个方向作为两个并行的抓取网络Φg和推动网络Φp的组成的全卷积神经网络的输入,并结合混合分散系数,将动作预测的像素Q值作为输出,筛选出该时刻具有最大Q值的抓取动作Qg和推动动作Qp,根据Qg和Qp选择动作;步骤6:设计动作奖励策略;步骤7:将经验存放到经验回放池;将s,a,s′,r,M,存储到经验池中,方便神经网络通过经验池数据完成神经网络的更新;其中,s表示当前状态,a表示当前状态下采取的动作,s’为采取动作后的下一状态,r为动作的奖励,M表示当前混合分散系数;步骤8:通过经验池数据完成神经网络权值更新。

全文数据:

权利要求:

百度查询: 郑州大学 一种基于强化学习的机器人自主抓推控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术