佛山大学李小松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉佛山大学申请的专利基于大语言模型先验的多模态融合图像翻译方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120430931B 。
龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510937899.8,技术领域涉及:G06T3/04;该发明授权基于大语言模型先验的多模态融合图像翻译方法及系统是由李小松;徐宇燊;匡振宇;黄庄钒;程荣燊设计研发完成,并于2025-07-08向国家知识产权局提交的专利申请。
本基于大语言模型先验的多模态融合图像翻译方法及系统在说明书摘要公布了:本发明公开了基于大语言模型先验的多模态融合图像翻译方法及系统,该方法包括:获取配准后的红外‑可见光融合图像以及对应的语义掩码和文本描述并进行数据预处理,得到融合图像特征、语义掩码视觉特征与文本语义特征序列;基于文本‑视觉状态空间块与三维选择性扫描块,构建多模态融合图像模态翻译模型;基于多模态融合图像模态翻译模型对融合图像特征、语义掩码视觉特征与文本语义特征序列进行图像翻译处理,得到翻译后的具有可见光分布特性的目标图像。本发明能够通过文本、掩码和图像之间的交互捕捉长期依赖关系,提升多模态融合图像翻译的精度。本发明作为基于大语言模型先验的多模态融合图像翻译方法及系统,可广泛应用于图像处理技术领域。
本发明授权基于大语言模型先验的多模态融合图像翻译方法及系统在权利要求书中公布了:1.基于大语言模型先验的多模态融合图像翻译方法,其特征在于,包括以下步骤: 获取配准后的红外-可见光融合图像以及对应的语义掩码和文本描述并进行数据预处理,得到融合图像特征、语义掩码视觉特征与文本语义特征序列; 基于文本-视觉状态空间块与三维选择性扫描块,构建多模态融合图像模态翻译模型; 所述多模态融合图像模态翻译模型具体包括多模态状态空间组、二维卷积块与图像重建块,所述多模态状态空间组的输出端与所述二维卷积块的输入端连接,所述二维卷积块的输出端与所述图像重建块的输入端连接,其中: 所述多模态状态空间组包括若干多模态状态空间块,若干所述多模态状态空间块之间通过串联连接,且第一个多模态状态空间块的输入为融合图像特征、语义掩码视觉特征与文本语义特征序列,后续多模态状态空间块的输入为前一个多模态状态空间块的输出、语义掩码视觉特征与文本语义特征序列; 所述多模态状态空间块包括第一归一化层、文本-视觉状态空间块、第二归一化层、第一卷积层与多模态交叉注意力模块,所述第一归一化层、所述文本-视觉状态空间块、所述第二归一化层、所述第一卷积层与所述多模态交叉注意力模块依次连接; 所述文本-视觉状态空间块包括第一线性层、第二线性层、第三线性层、逐通道卷积、第一SiLU激活函数、第二SiLU激活函数、三维选择性扫描块、第三归一化层与第四线性层,所述第一线性层的输出端与所述第一SiLU激活函数连接,所述第二线性层的输出端与所述逐通道卷积的输入端连接,所述第三线性层的输出端与所述三维选择性扫描块的第一输入端连接,所述逐通道卷积的输出端、所述第二SiLU激活函数、所述三维选择性扫描块的第二输入端、所述第三归一化层的输入端与所述第四线性层的输入端依次连接; 所述多模态交叉注意力模块包括对第二卷积层、GELU激活函数、第三卷积层、遮盖层与Softmax激活函数,所述第二卷积层、所述GELU激活函数、所述第三卷积层、所述遮盖层与所述Softmax激活函数依次连接; 基于多模态融合图像模态翻译模型对融合图像特征、语义掩码视觉特征与文本语义特征序列进行图像翻译处理,得到翻译后的具有可见光分布特性的目标图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人佛山大学,其通讯地址为:528011 广东省佛山市禅城区江湾一路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。