浙江大学;上海人工智能创新中心吴韬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;上海人工智能创新中心申请的专利多图多模态大语言模型中的语义对齐方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119027945B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410956798.0,技术领域涉及:G06V20/70;该发明授权多图多模态大语言模型中的语义对齐方法及系统是由吴韬;李孟择;陈静远;吉炜;林旺;高金杨;况琨;赵洲;吴飞设计研发完成,并于2024-07-17向国家知识产权局提交的专利申请。
本多图多模态大语言模型中的语义对齐方法及系统在说明书摘要公布了:本发明公开了一种多图多模态大语言模型中的语义对齐方法及系统,具体过程为:从现有的单图数据集中搜集组片组,并利用图像分割、图像填充技术和大语言模型来构建多图多模态样本,并将其用于语义对齐增强的多图多模态大模型训练中。其中,模型首先通过视觉编码器对输入图片进行编码,生成视觉编码图,并通过Q‑former模块抽取视觉标记。在此基础上,通过自适应权重调整模块生成上下文语义特征,并将其与当前感知图片的语义引导特征结合,最终生成具有增强语义对齐的视觉标记。本发明显著提升了多图任务中的语义对齐能力,特别是在处理图片差异较大的场景下,达到了较高的性能提升;同时也能确保在图片高度相似的情况下保留一定的语义对齐能力。
本发明授权多图多模态大语言模型中的语义对齐方法及系统在权利要求书中公布了:1.一种多图多模态大语言模型中的语义对齐方法,其特征在于,包括: S1.从现有的单图数据集中构建多图多模态样本,每个多图多模态样本包含若干张最终图片以及每个多图多模态样本对应的最终描述文本;其中,每张最终图片包含相同的对象,每张最终图片中相同的对象以不同的姿势、光照条件或者视角呈现; S2.获取一个经过训练的语义对齐模型,将包含待完成任务的提示词以及待进行语义对齐的图片输入训练好的语义对齐模型中,由语义对齐模型输出与待完成任务的提示词对应的答案; 语义对齐模型包含视觉编码器、双向引导模块以及大语言模型,双向引导模块包含两个Q-former模块和一个自适应权重调整模块,两个Q-former模块通过线性层进行交互且参数共享; 语义对齐模型在多图多模态样本生成的多图多模态数据集上进行训练,在语义对齐模型的训练过程中,视觉编码器、第一Q-former模块、第二Q-former模块以及大语言模型的参数固定不进行更新,仅更新自适应权重调整模块和用于交互的线性层参数; 语义对齐模型的处理流程如下: S21.将待进行语义对齐的图片输入到视觉编码器进行编码,得到视觉编码图; S22.对待完成任务的提示词进行编码后,得到文本标记,将预训练的查询向量和文本标记拼接,得到输入查询向量; S23.当语义对齐模型处理到第i个视觉编码图时,将第i个视觉编码图和输入查询向量一起输入到第一Q-former模块中,将第一Q-former模块第l-1层输出的查询向量经过第一线性层后,得到当前感知图片的语义引导特征; S24.将除去第i个视觉编码图的其余视觉编码图输入到自适应权重调整模块中,先由自适应权重调整模块根据其余视觉编码图生成归一化的自适应权重,再将其余视觉编码图与各自对应的自适应权重加权,得到加权后的视觉编码图求和以获得融合视觉编码图; S25.将融合视觉编码图和输入查询向量一起输入到第二Q-former模块中,将第二Q-former模块第l-1层输出的查询向量与当前感知图片的语义引导特征相加,得到更新后的输出查询向量; S26.第二Q-former模块的余下层从融合视觉编码图中提取相关细节,将第二Q-former模块的第k≥l层输出的查询向量经过第二线性层后,得到上下文语义特征; S27.将第一Q-former模块第k-1层输出的查询向量和上下文语义特征相加作为第一Q-former模块的第k层输入;由第一Q-former模块的第k层及余下层输出生成具有增强语义对齐的当前感知图片的最终视觉标记; S28.由语义对齐模型对每个视觉编码图进行处理,直到全部视觉编码图处理完,将每个视觉编码图对应的最终视觉标记以及文本标记输入大语言模型,由大语言模型输出最终的答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;上海人工智能创新中心,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励