昆明理工大学;云南锡业股份有限公司锡业分公司王青旺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学;云南锡业股份有限公司锡业分公司申请的专利一种基于场景图增强的多模态大模型场景理解方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119418339B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411563370.6,技术领域涉及:G06V20/70;该发明授权一种基于场景图增强的多模态大模型场景理解方法是由王青旺;朱秋百;袁海滨;李朝辉;刘庆东;刘艺;沈韬;朱中亮;王明江;钟华设计研发完成,并于2024-11-05向国家知识产权局提交的专利申请。
本一种基于场景图增强的多模态大模型场景理解方法在说明书摘要公布了:本发明涉及一种基于场景图增强的多模态大模型场景理解方法,属于跨模态信息融合与生成领域。首先,对输入图像进行预处理,将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像;其次,将有边界框与实体类别的图像传入场景图生成模型,生成初步实体关系并传入逻辑大模型进行修正,得到修正的实体关系;接着,根据图像内实体以及修正的实体关系构建场景图并传入提示大模型,生成基于场景图的提示文本;最后,将提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述。本发明可以有效增强多模态大模型图像场景理解能力。
本发明授权一种基于场景图增强的多模态大模型场景理解方法在权利要求书中公布了:1.一种基于场景图增强的多模态大模型场景理解方法,其特征在于: Step1:对图像进行缩放处理,使图像尺寸符合开放词汇目标检测模型以及多模态大模型输入要求,得到符合模型输入标准的预处理图像; Step2:将预处理图像传入开放词汇目标检测模型,获得图像内实体信息,生成有实体边界框与实体类别的图像; Step3:将有实体边界框与实体类别的图像传入卷积神经网络,生成初步实体关系; Step4:将初步实体关系传入逻辑大模型进行修正,得到修正的实体关系; Step5:根据图像内实体信息以及修正的实体关系构建场景图; Step6:将构建的场景图传入提示大模型,生成基于场景图的提示文本; Step7:将生成的提示文本与预处理后的图像一并输入多模态大模型中,多模态大模型根据提示文本理解图像信息,生成图像内场景的描述; 所述Step6具体为: Step6.1:将场景图以及初始提示文本作为生成提示大模型输入; Step6.2:生成提示大模型读取场景图中的结构化信息; Step6.3:生成提示大模型识别场景图中字段信息,从中提取实体关系; Step6.4:生成提示大模型基于提示文本对实体关系进行扩充,将结构化信息转换为自然语言表述; Step6.5:生成提示大模型检查自然语言表述,通过理解语义信息,识别出逻辑上不合理或语义上不连贯的部分,并进行修改,得到表述流畅、逻辑连贯、语义清晰的自然语言表述; Step6.6:生成提示大模型复查自然语言表述,抽取自然语言表述中的实体关系,然后与场景图信息进行比对,检查自然语言表述是否准确反映了场景图内信息; Step6.7:生成提示大模型输出自然语言表述,生成基于场景图的提示文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学;云南锡业股份有限公司锡业分公司,其通讯地址为:650031 云南省昆明市一二一大街文昌路68号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励