Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学莫竣程获国家专利权

浙江大学莫竣程获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学申请的专利一种基于路由预测框架的GUI定位方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121478164B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610018003.0,技术领域涉及:G06F3/04845;该发明授权一种基于路由预测框架的GUI定位方法及系统是由莫竣程;林怀忠;赵磊;邢卫设计研发完成,并于2026-01-08向国家知识产权局提交的专利申请。

一种基于路由预测框架的GUI定位方法及系统在说明书摘要公布了:本发明属于计算机技术领域,公开了一种基于路由预测框架的GUI定位方法及系统。本发明通过在多模态大语言模型的自回归解码过程中引入基于词项类型判别的路由预测机制,将界面语义生成任务与空间定位任务进行动态分流,使得针对存在目标元素的用户指令能够跳出离散文本生成路径,直接基于隐藏状态与经结构增强的界面图像特征进行连续空间坐标回归,同时在目标元素不存在时通过专用拒绝响应词项返回空定位结果,从而在端到端统一框架下有效避免坐标量化误差与幻觉定位问题,显著降低定位推理延迟,提升图形用户界面元素定位的精度、实时性与鲁棒性,并增强模型对界面结构语义和空间布局关系的整体理解能力。

本发明授权一种基于路由预测框架的GUI定位方法及系统在权利要求书中公布了:1.一种基于路由预测框架的GUI定位方法,其特征在于,所述方法包括如下步骤: 步骤S1,获取图形用户界面的图像和用户指令文本,并进行预处理与编码以分别得到图像特征序列和文本特征序列,将图像特征序列与文本特征序列进行拼接,得到融合特征序列; 步骤S2,将所述融合特征序列输入至多模态大语言模型,获取多模态大语言模型在当前解码步输出的隐藏状态; 步骤S3,基于所述隐藏状态,通过令牌路由单元判断当前解码步输出的令牌类型,包括视觉定位令牌、拒绝响应令牌以及普通文本令牌; 步骤S4,若所述令牌类型为视觉定位令牌则触发坐标解码器,将所述视觉定位令牌对应的隐藏状态与经过视觉适配器增强的图像特征进行融合解码,输出连续空间坐标值作为目标元素的边界框;若所述令牌类型为拒绝响应令牌,则返回空定位结果,拒绝本次定位请求;若所述令牌类型为普通文本令牌,则由多模态大语言模型继续自回归生成语义描述文本; 所述令牌路由单元通过复用多模态大语言模型的输出投影层实现;其中,所述输出投影层的原始词表被扩展,新增了与所述视觉定位令牌和所述拒绝响应令牌对应的两个词表项; 所述视觉适配器为轻量级神经网络模块,其输入为多模态大语言模型的视觉编码器输出的原始图像特征序列,通过包含至少一个双向自注意力层的结构进行处理,输出针对图形用户界面中目标元素的边缘、矩形区域及文字布局增强后的图像特征; 所述坐标解码器包括交叉注意力模块和回归头;所述交叉注意力模块以所述视觉定位令牌对应的隐藏状态作为查询向量,以所述增强后的图像特征作为键向量和值向量进行特征融合;所述回归头用于将融合后的特征映射为四个连续的浮点数,直接构成归一化的边界框坐标; 所述交叉注意力模块为多尺度层级结构,包括至少第一交叉注意力子模块和第二交叉注意力子模块;其中,所述第一交叉注意力子模块以所述视觉定位令牌对应的隐藏状态作为查询向量,以低分辨率图像特征序列作为键向量和值向量进行交叉注意力计算,用于在图形用户界面中确定目标元素的候选区域;所述第二交叉注意力子模块以与所述第一交叉注意力子模块共享或经线性变换后的查询向量作为查询向量,仅针对与所述候选区域对应的高分辨率图像特征子集进行交叉注意力计算,用于对所述目标元素进行精细定位并生成用于边界框回归的融合特征。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310000 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。