Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华南理工大学谭明奎获国家专利权

华南理工大学谭明奎获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华南理工大学申请的专利一种多模态模型视觉感知能力增强方法、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119809925B

龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411826999.5,技术领域涉及:G06T3/4038;该发明授权一种多模态模型视觉感知能力增强方法、设备及介质是由谭明奎;陈卓琨;胡晋武;邓泽帅;王宇丰;杜卿设计研发完成,并于2024-12-12向国家知识产权局提交的专利申请。

一种多模态模型视觉感知能力增强方法、设备及介质在说明书摘要公布了:本发明公开了一种多模态模型视觉感知能力增强方法、设备及介质,其中方法包括:采集图像数据,并根据图像提出文本问题;挑选基于同一语言模型训练的多个多模态语言大模型,并合并语言模型的参数;基于输入图像,利用多个视觉编码器提取视觉特征;输入文本,通过语言模型对输入文本进行特征提取,获得文本特征;拼接视觉特征与文本特征,获得融合特征;将融合特征输入语言模型进行推理,输出推理结果。本发明无需额外训练,能够有效提高多模态任务的性能,并减少了部署开销。另外,利用本发明的技术,可以通过融合不同视觉编码器的优势,显著提升多模态大模型的视觉感知效果,同时降低计算资源需求。本发明可广泛应用于人工智能领域。

本发明授权一种多模态模型视觉感知能力增强方法、设备及介质在权利要求书中公布了:1.一种多模态模型视觉感知能力增强方法,其特征在于,包括以下步骤: 采集图像数据,并根据图像提出文本问题; 挑选基于同一语言模型训练的多个多模态大模型,并合并语言模型的参数; 基于输入图像,利用多个视觉编码器提取视觉特征; 输入文本,通过语言模型对输入文本进行特征提取,获得文本特征; 拼接视觉特征与文本特征,获得融合特征; 将融合特征输入多模态语言模型进行推理,输出推理结果; 所述采集图像数据,并根据图像提出文本问题,包括: 使用高分辨率的摄影设备采集图像数据; 在采集完图像后,针对每张图像提出文本问题,这些问题将用于多模态任务的推理; 所述挑选基于同一语言模型训练的多个多模态大模型,包括: 在选择多模态大模型时,需要考虑以下三个关键模块的组成与功能:前处理模块、视觉编码器和映射模块; 其中,前处理模块的功能是对输入的图像数据进行标准化和初步转换,以便后续视觉编码器对图像信息进行有效处理;视觉编码器负责将前处理后的图像数据转换为视觉特征; 映射模块负责将视觉编码器提取的视觉特征转换为语言模型能够处理的嵌入格式; 经过前处理、编码和映射的视觉特征与文本特征结合后,输入到共享的语言模型中进行推理;其中,语言模型的参数在所有多模态大模型中共享,确保了语言部分的一致性; 多模态大模型通过处理文本特征和视觉特征,生成最终的推理结果; 在选择多模态大模型时,需确保这些多模态大模型的语言模型部分基于相同的预训练模型,即各多模态大模型的语言模型参数保持一致; 所述合并语言模型的参数,包括: 在挑选好多个多模态大模型后,将来自不同多模态大模型的语言模型参数进行合并,以生成一个能够解释来自多个视觉编码器的视觉特征的统一语言模型;具体的公式表示为: 式中,Θpre表示预训练语言模型的参数,Θi表示第i个多模态大模型的语言模型参数,M是多模态大模型的数量,λ是可调整的合并系数;Θi-Θpre为各个多模态大模型的语言模型的参数与预训练语言模型的参数的差。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。