北京控制工程研究所汤亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京控制工程研究所申请的专利一种序列拨推采样归置策略迭代生成学习方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115205393B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210617856.8,技术领域涉及:G06N3/008;该发明授权一种序列拨推采样归置策略迭代生成学习方法及系统是由汤亮;刘昊;黄煌;谢心如设计研发完成,并于2022-06-01向国家知识产权局提交的专利申请。
本一种序列拨推采样归置策略迭代生成学习方法及系统在说明书摘要公布了:本发明公开了一种序列拨推采样归置策略迭代生成学习方法,用于在有限的工作空间、丰富的碰撞和高度耦合的情况下生成连续的推送动作,将随机分散在有限容器内的任意形状的物体自主归置,从而为未来的未知物体挤出尽可能多的空间,自主实现最大化装箱。本方法采用任务和运动规划思想,将任务学习抽象为一个两层问题。高层任务规划使用基于近端策略优化PPO的强化学习进行顺序推送决策。在底层运动规划中,采用传统的轨迹线性规划方法结合碰撞检测生成机器人推送操作。本方法能够以高效灵活的方式排列未知对象,同时将策略学习和机械臂控制解耦,从而具有更好的从仿真到现实世界的可移植性。
本发明授权一种序列拨推采样归置策略迭代生成学习方法及系统在权利要求书中公布了:1.一种序列拨推采样归置策略迭代生成学习方法,其特征在于包括: 设计实验应用场景,通过机械臂腕部的手眼相机实现工作空间的图像采集,通过机械臂末端的双指夹持器来执行归置动作; 通过所述手眼相机获取工作空间的4通道RGB-D图像,根据工作空间预定义边界和手眼相机内外参数将4通道RGB-D图像矫正到俯视视角,输出Heightmapsrgbd; 进行高层任务决策规划设计:搭建图像特征提取层,将获取的srgbd提取成高维特征向量st,作为强化学习的状态输入;采用基于近端策略优化PPO的强化学习进行顺序推送决策,生成拨推动作策略; 进行底层动作规划设计:设计合理的归置动作;针对生成的拨推动作策略,规划机械臂运动轨迹,并进行碰撞力检测;通过机械臂控制器实现动作执行; 根据物理场景搭建虚拟仿真训练场景,设置动力学参数,进行学习训练,生成智能体网络; 将智能体网络迁移到物理试验中,验证本序列拨推归置策略生成方法的性能; 所述搭建图像特征提取层,将获取的srgbd提取成高维特征向量st,作为强化学习的状态输入,具体为: 所述图像特征提取层,包括三个特征提取单元和两个全连接的层;每个特征提取单元由卷积层、重叠池化层和残差模块组成; 首先使用卷积层、非线性激活函数和批量归一化来提取特征,然后将特征输入重叠池化层,从而减小输出的大小并提高预测精度;最后,添加两个残差模块进行恒等映射以避免深层神经网络的退化;特征提取层从4通道RGB-DHeightmapsrgbd提取特征,并映射到128维表示; 所述采用基于近端策略优化的强化学习进行顺序推送决策,具体为: 近端策略优化PPO包括一个优化随机策略的决策网络和一个近似值函数的评价网络; 决策网络和评价网络都是由一个三层的多层感知器MLP构建,该多层感知器MLP有两个大小为512和256的隐藏层; 将以下损失函数作为优化目标 其中, rtθ为当前策略πθ和旧策略的比值,at为当前动作,st为当前状态,为优势函数,ε为超参数,表示对有限批次样本的平均值,clip为裁剪函数,确定了rtθ的上限1+ε和下限1-ε。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京控制工程研究所,其通讯地址为:100080 北京市海淀区北京2729信箱;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励