Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜浙江大学杜浩哲获国家专利权

恭喜浙江大学杜浩哲获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜浙江大学申请的专利基于视觉语言模型和历史数据学习的可变形物体形状控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119820579B

龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510293736.0,技术领域涉及:B25J9/16;该发明授权基于视觉语言模型和历史数据学习的可变形物体形状控制方法是由杜浩哲;王越;熊蓉设计研发完成,并于2025-03-13向国家知识产权局提交的专利申请。

基于视觉语言模型和历史数据学习的可变形物体形状控制方法在说明书摘要公布了:本发明公开了一种基于视觉语言模型和历史数据学习的可变形物体形状控制方法,既结合了视觉目标中微观像素层面的指导,又利用了语言目标中的信息进行宏观语义层次的任务规划和逻辑推理,最后利用视觉语言模型将两种模态的目标信息进行融合,使得视觉目标和语言目标相互促进、相互协同,保证了可变形物体形状控制任务的精确规划,利用黑箱优化算法进行在线参数估计,实现对物体形变状态的实时追踪和更新,参数化多边形模型这一几何表征将高维视觉观测数据压缩至低维参数空间,显著降低了可变形物体状态观测的维度,只保留与任务相关的关键状态信息。

本发明授权基于视觉语言模型和历史数据学习的可变形物体形状控制方法在权利要求书中公布了:1.基于视觉语言模型和历史数据学习的可变形物体形状控制方法,其特征在于,包括: 获取可变形物体形状控制历史执行数据,预处理数据并构建分类存储的历史数据库; 获取当前任务用户语言目标指令和视觉示教子目标序列; 通过视觉语言模型对当前任务用户语言目标指令进行处理,将其分解为和视觉示教子目标序列一一对应的语言子目标序列; 针对语言子目标序列中每一个语言子目标及其对应的视觉示教子目标,循环执行以下的步骤,直到完成序列中所有的子目标: 获取当前可变形物体的图像; 根据当前可变形物体的图像拟合当前可变形物体的参数化多边形模型; 根据当前视觉示教子目标拟合视觉示教子目标的参数化多边形模型; 计算历史数据库中的每个数据和当前任务的任务匹配评分; 计算历史数据库中的每个数据和当前可变形物体的物体匹配评分; 根据任务匹配评分和物体匹配评分,从历史数据库中筛选出特定数量的历史数据; 基于当前语言子目标、视觉示教子目标及视觉示教子目标的参数化多边形模型、筛选出的历史数据、当前可变形物体图像及当前可变形物体的参数化多边形模型,通过视觉语言模型计算可变形物体形状控制动作所需的折叠对称轴; 根据折叠对称轴和当前可变形物体的图像,通过可操作性优化算法计算形状控制动作的第一抓取点、第一放置点、第二抓取点及第二放置点; 根据第一抓取点、第一放置点、第二抓取点及第二放置点执行可变形物体的形状控制动作; 所述的预处理数据并构建分类存储的历史数据库,具体包括: 所述的可变形物体形状控制历史执行数据按照目标种类分为基于语言目标的历史数据和基于视觉目标的历史数据; 针对每条基于语言目标的历史数据,预处理过程包括:对所述基于语言目标的历史数据中的用户语言指令和语言子目标使用预训练的文本嵌入编码器,映射为维度为H的特征向量,同时根据历史数据中的可变形物体形变前后的图像拟合对应的参数化多边形模型,通过视觉语言模型对所述历史数据的执行效果进行打分,评估分数取值范围为离散的三个值:1代表执行效果非常好,0代表执行效果一般,-1代表执行效果差,视觉语言模型的输入为语言子目标Lt,可变形物体形状变化前后的图像和可变形物体形状变化前后的参数化多边形模型和折叠对称轴Ft,双臂抓取-放置动作at,通过所述的视觉语言模型计算评估分数score,将所述的历史数据以及预处理得到的特征向量、参数化多边形模型和评估分数合并,构建基于语言目标的历史数据库; 针对每条基于视觉目标的历史数据,拟合所述历史数据中可变形物体形状变化前后的参数化多边形模型以及历史数据中视觉示教子目标序列的参数化多边形模型,此外与基于语言目标的历史数据评估分数计算过程相同,同样利用视觉语言模型对历史数据的执行效果进行打分,将所述的历史数据以及预处理得到的参数化多边形模型和评估分数合并,构建基于视觉目标的历史数据库; 综合所述的基于语言目标和视觉目标的历史数据库,构建所述的分类存储的历史数据库; 所述的通过视觉语言模型计算可变形物体形状控制动作所需的折叠对称轴,具体包括: 若当前语言子目标为Lt,视觉示教子目标为视觉示教子目标对应的参数化多边形模型为当前图像为对应的参数化多边形模型为所述历史数据库中筛选得到K组基于语言目标的历史数据为K组基于视觉目标的历史数据为以此作为多模态的输入,通过视觉语言模型VLM对当前任务进行推理计算,生成所述的可变形物体形状控制动作所需的折叠对称轴Ft,用公式表示如下: 所述的可操作性优化算法,具体包括: 所述可操作性优化算法通过最大化四边形面积和点到折叠对称轴的距离的加权和,来确定所述第一抓取点和第二抓取点,具体步骤如下:若当前步所述第一抓取点第二抓取点所述折叠对称轴Ft的起点为ft1,终点为ft2;计算ft1和ft2围成的四边形面积S;计算所述第一抓取点到折叠对称轴Ft的距离l1;计算所述第二抓取点到折叠对称轴Ft的距离l2,具体公式如下: 其中Smax是可变形物体的包围框的面积,γ是加权系数,Cimg是从所述可变形物体图像中提取的物体轮廓,约束条件为第一抓取点、第二抓取点位于物体轮廓上,并且第一抓取点、第二抓取点位于所述折叠对称轴的左侧;第一放置点为第一抓取点关于折叠对称轴的对称点,第二放置点为第二抓取点关于折叠对称轴的对称点。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。