浙江有鹿机器人科技有限公司陈俊波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江有鹿机器人科技有限公司申请的专利一种标记压缩框架的图文处理方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120235250B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510715518.1,技术领域涉及:G06N5/04;该发明授权一种标记压缩框架的图文处理方法及装置是由陈俊波;朱建科;倪涛;占新;纪航;董子超;黄旭峰;罗涛设计研发完成,并于2025-05-30向国家知识产权局提交的专利申请。
本一种标记压缩框架的图文处理方法及装置在说明书摘要公布了:本发明公开了一种标记压缩框架的图文处理方法及装置,包括:视觉特征提取步骤;视觉标记筛选处理步骤;文本特征提取步骤;多模态融合与模型处理步骤。本发明的有益效果是:本发明的视觉标记压缩框架在无需额外训练的情况下,显著提升了MLLMs的推理效率;通过DVTS模块的全局与局部信息融合,以及TGVC模块的文本引导补充,大幅减少了视觉标记数量,同时保留关键视觉信息并增强视觉‑文本对齐;实验表明,本框架在多种图像和视频基准测试中,相较于现有方法,在大幅降低计算成本的同时,保持甚至提升了模型性能,具有显著的技术优势和应用潜力。
本发明授权一种标记压缩框架的图文处理方法及装置在权利要求书中公布了:1.一种标记压缩框架的图文处理方法,其特征在于,包括: 视觉特征提取步骤:通过视觉编码器对输入图像进行编码,生成视觉标记序列; 视觉标记筛选处理步骤: 基于CLS注意力与局部注意力机制分析所述视觉标记序列的重要性,对视觉标记进行排序,选取前K个关键标记; 将剩余视觉标记利用文本信息指导视觉标记的聚类和合并,通过重复N次处理提取剩余标记的特征信息; 文本特征提取步骤:利用文本编码器对输入文本问题进行编码,生成文本特征; 多模态融合与模型处理步骤:将前K个关键标记、利用文本信息指导视觉标记的聚类和合并处理后的剩余标记与文本特征融合,输入大语言模型,对融合特征进行中间层处理,完成图文任务计算。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江有鹿机器人科技有限公司,其通讯地址为:311100 浙江省杭州市余杭区良渚街道金家渡路112号1号楼1402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。