买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本发明提出一种基于大模型的红外‑光学融合场景语义描述方法及装置,属于图像描述、计算机视觉技术领域。其中,所述方法包括:将获取的可见光和红外图像对输入预设的场景描述模型,得到该图像对的初始场景描述语句;将该图像对的红外图像输入预设的目标检测模型,得到红外图像中每个目标检测框对应目标的种类以及目标的中心点坐标和相对尺寸;将上述信息输入提示优化完毕的大语言模型,该大语言模型输出对应该图像对的最终场景描述语句。本发明将目标检测技术、场景描述技术通过大语言模型技术结合起来,可克服以往图像描述模型不能适用于暗光场景或描述不准确的缺陷,特别是在光线不足的条件下可生成准确详细的场景描述,有较高的应用价值。
主权项:1.一种基于大模型的红外-光学融合场景语义描述方法,其特征在于,包括:分别获取同一场景下的一张可见光图像和一张红外图像并进行匹配,将匹配后的所述可见光图像和所述红外图像组成待处理可见光和红外图像对;将所述待处理可见光和红外图像对输入预设的场景描述模型,所述场景描述模型输出所述图像对的初始场景描述语句;将所述待处理可见光和红外图像对中的红外图像输入预设的目标检测模型,所述目标检测模型输出所述红外图像中每个目标检测框对应目标的种类和该目标检测框位置信息,进而得到每个目标检测框对应目标的中心点坐标和相对尺寸;将所述图像对的初始场景描述语句、所述每个目标检测框对应目标的种类、所述每个目标检测框对应目标的中心点坐标和相对尺寸输入提示优化完毕的大语言模型,所述大语言模型输出对应所述待处理可见光和红外图像对的最终场景描述语句。
全文数据:
权利要求:
百度查询: 清华大学 基于大模型的红外-光学融合场景语义描述方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。