买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明提供了一种基于视觉模仿学习的机器人细粒度技能学习与泛化VLMimic方法,是一个新颖的视觉模仿学习框架,由VLMs驱动,从人类演示视频中学习可泛化的机器人技能;VLMimic具有知识提取的技能学习器和迭代技能细化的技能适配器,实现了高效的技能习得和适应;本发明构建了一个有效的人‑物交互定位算法,增强了细粒度动作识别能力,并提出了用于VLM推理的层次化约束表示,以减少信息冗余并促进全面动作理解;本发明的方法在RLBench上的表现超过了其他方法27%以上。在现实世界的操作任务中,VLMimic在已知环境中实现了超过21%的提升,在未知环境中实现了34%的提升。此外,VLMimic在长期任务中表现出了超过37%的提升。
主权项:1.一种基于视觉模仿学习的机器人细粒度技能学习与泛化方法,其特征在于,包括:步骤一、视频解析:S1.1、总任务识别,包括:周期性地从人类操作演示视频中提取一系列图片帧,利用VLMs来构建图片帧内的任务描述和物体信息;S1.2、视频解析,包括:从人类操作演示视频中提取交互标记,捕获手和与操作相关物体两类实体之间的交互,根据两实体交互的时间段将视频划分为多个子任务段;S1.3、子任务识别,包括:每个子任务段根据相互作用的实体分为抓取阶段和操作阶段;VLMs分析每一个子任务段,生成子任务文本描述并识别主物体以及从物体;将每个子任务中移动物体定义为从物体,静止的目标物体定义为主物体;在抓取阶段,机器人以主物体为目标执行伸手并且抓握动作,其中将手部定为从物体而被抓的物体指定为主物体;在操作阶段,机器人利用从物体与主物体进行交互,其中使用主物体表示为被接触的物体,从物体表示为主动接触的物体;S1.4、以对象为中心的交互提取,包括:在相对于主物体的当前坐标系下,获得产生的手部的姿态轨迹和从物体的姿态轨迹;步骤二、具有层次化表示的技巧学习方,包括:S2.1、提取抓取任务约束;S2.2、提取操作约束;S2.3、知识库的构建:建立知识库从而用来存档高层次规划和低层次技能见解,并使用键值对ki,vi存储知识;其中,高层次规划知识使用总任务描述Tt作为键进行索引,动作序列Tτ作为值进行配对;对于低级技能知识,键由物体图像和子任务描述Tτi组成,同时值由物体网格模型Ω和代表学习技能的语义约束和代码组成;步骤三、通过迭代比较策略适应技能,包括:S3.1、高层规划基于任务指导从知识库中检索高层规划知识,作为VLMs的上下文示例,以及场景观察;VLMs作为;任务规划器,生成一系列可执行的步骤和任务相关对象的描述To;S3.2、迭代比较从知识库中检索出低层次技能知识,并通过迭代比较对其进行更新;在每次迭代中,VLMs在适应的交互I和知识库检索的交互之间执行比较分析,随后更新抓取约束和操作约束。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于视觉模仿学习的机器人细粒度技能学习与泛化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。