买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学
摘要:一种基于深度强化学习和TSK‑FS模糊推理的机器人抓取方法及系统,它属于机器人视觉定位抓取技术领域。本发明解决了现有物体抓取方法无法获得最优行为指导策略且抓取效率低的问题。本发明在深度强化学习模型的行为策略训练阶段加入Gauss噪声值,可以使机械臂有机会探索到更为广泛的动作空间,进而获得最优的行为指导策略。同时本发明的模糊推理利用了与决策动作直接相关的最优推动动作价值、最优抓取动作价值、目标物体边缘物体占有率和连续抓取失败次数信息,使得决策结果综合考虑了推动动作的需求,可以根据当前工作场景中的状态信息进行推抓动作自主决策,有效提高了目标物体的抓取效率。本发明方法可以应用于对机器人的抓取任务进行控制。
主权项:1.一种基于深度强化学习和TSK-FS模糊推理的机器人抓取方法,其特征在于,所述方法具体包括以下步骤:步骤一、在t时刻,利用设置在机器人上的深度相机捕获正对机器人工作场景的彩色图像和深度图像,再对捕获的彩色图像和深度图像进行预处理,得到机械臂基座坐标系下的彩色信息图ct、深度信息图dt和目标物体掩码图mt;步骤二、分别构建推动动作评价网络QP和抓取动作评价网络QG,将彩色信息图ct、深度信息图dt和目标物体掩码图mt作为推动动作评价网络QP的输入,利用推动动作评价网络QP输出推动动作价值qP,将彩色信息图ct、深度信息图dt和目标物体掩码图mt作为抓取动作评价网络QG的输入,利用抓取动作评价网络QG输出抓取动作价值qG;步骤三、将推动动作价值qP、抓取动作价值qG、目标物体边缘物体占有率rO以及连续抓取失败次数fG作为TSK-FS模糊推理网络的输入,利用TSK-FS模糊推理网络输出决策动作;所述决策动作为推动或抓取;步骤四、将TSK-FS模糊推理网络输出的决策动作作为深度强化学习模型的输入,选择出使深度强化学习模型的动作价值评价网络的输出达到最大时的动作;步骤五、控制器根据步骤四中输出的动作对机器人的机械臂和机械臂末端执行器进行控制;步骤六、判断是否已经完成对目标物体的抓取任务;若已经完成对目标物体的抓取任务,则整个抓取方法结束;若未完成对目标物体的抓取任务,则执行步骤七;步骤七、判断是否达到了设置的最大抓取失败次数;若未达到设置的最大抓取失败次数,则直接执行步骤八;若达到了设置的最大抓取失败次数,则重置机器人后再执行步骤八;步骤八、令t=t+1,返回执行步骤一。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 一种基于深度强化学习和TSK-FS模糊推理的机器人抓取方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。