买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨理工大学
摘要:本发明提出了一种基于模型解空间快速自收敛的机械臂智能抓取方法,旨在解决现有深度强化学习算法训练机械臂执行智能抓取任务时模型解空间维度过高导致的最优解丢失、模型收敛速度慢等技术问题。该方法首先采用改进YOLOv8网络结合GraspNet端到端抓取网络实现对指定物体的检测识别和6D抓取位姿估计。接下来,设计基于位姿的离散型奖励函数以适应高精度抓取任务,同时设计基于位姿‑能量约束的密集型非线性奖励函数,在保证低能耗的前提下降低机械臂在高维解空间下探索导致的抖动使深度强化学习DDPG模型快速收敛到最优解。然后,提出一种新型的深度强化学习算法R‑DDPG并在仿真环境中训练R‑DDPG算法,利用RRT算法的专家经验对DDPG算法训练前期的探索过程进行引导,解决DDPG算法训练初期面临高维度解空间时探索效率较低的问题,提高模型收敛速度。最后,将训练好的R‑DDPG模型迁移到实物机械臂上并结合视觉模块输出的抓取位姿信息进行抓取操作。
主权项:1.一种基于模型解空间快速自收敛的机械臂智能抓取方法,该方法包括以下步骤:步骤1.在ROS系统下搭建UR3e机械臂的Gazebo仿真环境,添加末端执行器、深度相机以及各类物体构建抓取场景,将YOLOv8网络与GraspNet网络部署到仿真环境中,采用YOLOv8网络对抓取场景进行目标检测,识别出待抓取物体,利用GraspNet网络对YOLOv8网络识别出的待抓取物体进行抓取检测,获得目标物体的6Dx,y,z,roll,pitch,yaw抓取位姿信息;步骤2.设计基于位姿的离散型奖励函数Reward-1以适应高精度抓取任务,考虑到机械臂在高维解空间中探索会导致反复抖动而无法收敛到最优解以及耗能高的问题,设计基于位姿-能量约束的密集型非线性奖励函数Reward-2帮助机械臂在低能耗条件下快速找到最优解,在仿真环境中加载深度强化学习DDPG算法,采用所设计的两种奖励函数训练机械臂末端到达步骤1中视觉模块获取到的6D抓取位姿处直到模型收敛;步骤3.针对DDPG算法在训练初期由于模型解空间维度过高导致的模型收敛速度慢的问题,提出一种新型的深度强化学习算法R-DDPG,R-DDPG算法的核心在于通过定义一个随训练过程动态变化的融合权重系数λ将RRT算法的专家经验融入DDPG算法输出的每一步动作中,降低模型解空间的维度以使DDPG算法在机械臂整个庞大的工作空间中快速找到有效探索策略,实现从专家指导到自主学习的渐进式转变,提高模型收敛速度,该算法采用步骤2中设计的密集型非线性奖励函数Reward-2进行训练,模型收敛后搭建实物机械臂抓取环境,将训练好的R-DDPG模型迁移到实物机械臂上完成抓取操作。
全文数据:
权利要求:
百度查询: 哈尔滨理工大学 一种基于模型解空间快速自收敛的机械臂智能抓取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。