南京航空航天大学李丕绩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京航空航天大学申请的专利一种基于场景图生成的生成式视觉常识推理与解释方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116955672B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310929311.5,技术领域涉及:G06F16/532;该发明授权一种基于场景图生成的生成式视觉常识推理与解释方法是由李丕绩;袁凡设计研发完成,并于2023-07-27向国家知识产权局提交的专利申请。
本一种基于场景图生成的生成式视觉常识推理与解释方法在说明书摘要公布了:本发明公开了一种基于场景图生成的生成式视觉常识推理与解释方法。该方法包括:在语言大模型Flan‑T5中加入单头注意力和门控融合机制以进行多模态融合;在场景图生成阶段,采用图像补丁序列与包含物体信息的提示模板,生成场景图三元组序列;在视觉常识推理和解释生成阶段,结合场景图与问题构建提示模板,并设计了基于置信度分数的场景图自动选择模块,使模型能够自动选择合适的三元组并生成回答和解释。在VCR数据集上取得了比e‑UG等模型更好的指标得分。本发明针对语言大模型模态单一的问题,结合多模态融合技巧,通过构建提示模板和基于置信度的场景图选择机制,充分发挥大模型的语义理解特性,赋予其深入理解视觉信息的能力,从而进行推理和解释。
本发明授权一种基于场景图生成的生成式视觉常识推理与解释方法在权利要求书中公布了:1.一种基于场景图生成的生成式视觉常识推理与解释方法,其特征在于,包括以下步骤: 1场景图的生成:获取来自图像的补丁序列,以及包含物体信息的Prompt提示模板,生成对应的场景图三元组序列; 2基于置信度分数的场景图自动选择:通过CLIP模型获取场景图三元组序列的置信度分数,根据置信度分数指导视觉常识推理与解释生成模型,自动选择符合图像中的物体关系的场景图三元组序列; 3视觉常识推理与解释生成:使用Flan-T5大语言模型,将步骤1中生成的场景图三元组序列生成的场景图以及问题构建成Prompt提示模板,并结合图像补丁序列,生成对视觉常识推理问题的回答以及解释; 步骤1的实现过程为:构建包含物体信息的Prompt提示模板:subject1,object1;subject2,object2;...,获取改进型Flan-T5大语言模型,所述改进型Flan-T5大语言模型包括一个编码器-解码器结构,在所述编码器的前端串接多模态融合模块,所述多模态融合模块的计算公式为: Hc=AttentionHtWQ,HvWK,HvWV λ=SigmoidWtHt+WvHc Hf=1-λHt+λHc 其中,Ht是文本输入即包含物体信息的Prompt提示模板,Hv是视觉输入即图像的补丁序列,Hc是隐状态,Hf是向量;WQ,WK,WV,Wt,Wv是可学习的参数,λ是权重超参数; 所述Flan-T5大语言模型的输入为图像的补丁序列以及包含物体信息的Prompt提示模板,输出为场景图三元组序列:subject1,object1,relation1;subject2,object2,relation2;...。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。