买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明涉及基于大模型融合精细化场景图思维链的图像详细描述方法,针对待描述复杂图像,先获得图像的标题,其次通过主体提取模块识别图像中的主体对象,根据其基本信息构造初步的简单场景图,获得主体对象的详细描述内容,分析其属性并加入场景图中,获得完备的主体场景图,并向其中添加背景信息。再通过对象富化模块获得与主体对象强关联的非主体对象的基本信息,以此获得最终的精细化场景图。将图像、图像标题、精细化场景图和提示词模板结合,通过多模态大语言模型获得最终的详细图像描述。本发明实现了对复杂图像的详细描述,有效地减少了在图像描述任务中详细描述图像内容时常见的幻觉现象的发生,提高了描述的丰富性和可靠性。
主权项:1.基于大模型融合精细化场景图思维链的图像详细描述方法,其特征在于:包括以下步骤:步骤一:使用大模型生成图像的标题,仅包含图像中主体对象的整体描述信息;步骤二:构建以主体对象为焦点的初步场景图,通过主体对象提取模块识别图像中的主体对象,并获得其位置信息,构建为一个初步的简单场景图,仅包含主要对象和少量简单属性;步骤三:丰富主体对象的属性信息,基于主体对象的名称和位置,使用对象描述模块获取其进一步的细节属性信息,添加至步骤二中获得的简单场景图中,获得完备的主体场景图;步骤四:获取图像的背景信息,通过背景描述模块获得背景描述信息,添加至步骤三中获得的主体场景图中;步骤五:通过对象富化模块获取与主体对象强关联的非主体对象的信息,添加至步骤四中获得的场景图中,获得最终详细的精细化场景图;步骤六:将步骤五中获得的细化后的精细化场景图和用于图像细节描述的提示词组合后输入大模型中,获得最终的详细图像描述。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 基于大模型融合精细化场景图思维链的图像详细描述方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。