Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学;上海人工智能创新中心黄海烽获国家专利权

浙江大学;上海人工智能创新中心黄海烽获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学;上海人工智能创新中心申请的专利一种基于分割掩码表示的可泛化机器人操作方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120107583B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510170495.0,技术领域涉及:G06V10/26;该发明授权一种基于分割掩码表示的可泛化机器人操作方法和系统是由黄海烽;王泽寒;赵洲设计研发完成,并于2025-02-17向国家知识产权局提交的专利申请。

一种基于分割掩码表示的可泛化机器人操作方法和系统在说明书摘要公布了:本发明公开了一种基于分割掩码表示的可泛化机器人操作方法和系统,属于桌面场景机器人操作领域。自动化生成大量虚拟环境下的桌面场景布局,以及针对各布局的机器人操作轨迹数据,每一条轨迹数据生成多样化文本指令;收集每一操作步下的机器人视角图像、机器人状态数据和一条文本指令作为一条训练样本;利用预训练多模态大模型定位每一条训练样本中的文本指令所指出的目标物体和目标区域,得到目标物体掩码和目标区域掩码;将若干历史操作步对应的目标物体掩码、目标区域掩码、训练样本输入机器人操作策略网络,预测机器人下一操作步的动作指令。本发明有效结合了视觉、语言和空间信息,提升了机器人策略在多变任务场景中的泛化能力。

本发明授权一种基于分割掩码表示的可泛化机器人操作方法和系统在权利要求书中公布了:1.一种基于分割掩码表示的可泛化机器人操作方法,所述机器人由夹爪和机械臂构成,其特征在于,包括以下步骤: 1构建三维物体库和桌面场景库,根据库中数据随机生成大量虚拟环境下的桌面场景布局; 2通过给定目标物体和目标区域,生成在桌面场景中针对目标物体的机器人操作轨迹数据;对于每一条机器人操作轨迹数据,结合桌面场景中全部物体的外观、空间位置关系和常识性知识生成多样化的文本指令; 3对于每一条机器人操作轨迹数据,收集每一操作步下的机器人视角图像、机器人状态数据和一条文本指令作为一条训练样本,构建训练样本集;所述的机器人状态数据包括机器人的夹爪开关和机器臂的关节角度; 4利用预训练多模态大模型定位每一条训练样本中的文本指令所指出的目标物体和目标区域,得到目标物体掩码和目标区域掩码; 5将若干历史操作步对应的目标物体掩码、目标区域掩码、训练样本输入机器人操作策略网络,提取机器人视角图像特征、机器人状态特征、文本指令特征,将目标物体掩码、目标区域掩码与所述的机器人视角图像特征融合,基于融合后的结果以及机器人状态特征、文本指令特征、可学习的动作token对应的动作特征,预测机器人下一操作步的动作指令,根据下一操作步的机器人真实状态与预测的动作指令计算损失以训练机器人操作策略网络; 步骤5具体包括: 5-1对于每一操作步下的机器人视角图像,利用机器人操作策略网络中的预训练图像编码器获取机器人视角图像特征,其中,为图像编码的特征维度; 5-2定位感知器分别初始化一个全局查询向量、一个目标物体查询向量和一个目标区域查询向量,其中为初始特征维度; 5-3在定位感知器的第一个注意力层中,将三个向量连接在一起并投影至隐藏层空间得到查询向量,其中为隐藏层特征维度;机器人视角图像特征经过不同投影矩阵的投影后与查询向量拼接,分别得到键向量和值向量,根据查询向量、键向量计算注意力矩阵; 5-4将目标物体掩码和目标区域掩码分别映射至的特征图大小,并转成大小为的一维向量,然后将对应的一维向量应用于,将对应的一维向量应用于,使得掩码区域的注意力值替换为当前矩阵的最大值,得到更新后的注意力矩阵;接下来,计算的,乘以值向量,并通过前馈网络得到注意力层的输出; 5-5返回步骤5-3,并将前一个注意力层的输出作为下一个注意力层计算的查询向量,直至得到最后一个注意力层的输出,将最终输出的融合了掩码信息的图像特征记为; 5-6分别利用预训练文本编码器、多层感知机提取机器人状态特征、文本指令特征,以及,初始化一个可学习的动作tokenACT并提取动作特征;得到每一个操作步对应的输入序列; 5-7将N个历史操作步数据对应的上述输入序列输入到Transformer解码器,预测得到下一步的动作指令,所述的动作指令包含夹爪动作和机器臂动作; 6利用预训练多模态大模型和训练后的机器人操作策略网络完成实际桌面场景下的给定指令。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;上海人工智能创新中心,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。