Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜图灵人工智能研究院(南京)有限公司;南京邮电大学沈童刚获国家专利权

恭喜图灵人工智能研究院(南京)有限公司;南京邮电大学沈童刚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜图灵人工智能研究院(南京)有限公司;南京邮电大学申请的专利基于层次化多模态精细调节的视觉问答优化方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120011547B

龙图腾网通过国家知识产权局官网在2025-06-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510472099.3,技术领域涉及:G06F16/334;该发明授权基于层次化多模态精细调节的视觉问答优化方法与系统是由沈童刚;颜祺;徐环环;刘汝杨;徐鹤;季一木;刘尚东设计研发完成,并于2025-04-16向国家知识产权局提交的专利申请。

基于层次化多模态精细调节的视觉问答优化方法与系统在说明书摘要公布了:本发明公开了一种基于层次化多模态精细调节的视觉问答优化方法与系统,通过创新的自适应跨模态桥接与多层组逐阶段低秩适配方法,显著提升了跨模态学习的精度和效果。所述方法通过在视觉特征中引入多层次语义感知的文本信息,使得视觉特征得到更精细的调整与优化,从而解决了视觉特征与文本语义匹配的不一致问题。通过多层组逐阶段低秩适配,有效避免了感知误差的累积,提供了一种逐层适配的机制,使得视觉特征和文本特征在多层次的学习过程中能够更加精确地对齐。本发明为跨模态任务中的视觉‑文本特征融合提供了新的思路和方法,能够更好地捕捉文本与视觉领域的高层次交互,从而提升VQA任务的性能。

本发明授权基于层次化多模态精细调节的视觉问答优化方法与系统在权利要求书中公布了:1.一种基于层次化多模态精细调节的视觉问答优化方法,其特征在于,包括步骤: S1、获取用于视觉问答任务的文本-图像对,包括图像和对应的文本; S2、利用预训练CLIP模型的视觉编码器提取图像的视觉特征,并将视觉编码器提取到的各层级特征组成视觉特征集; S3、利用预训练CLIP模型的文本编码器提取文本的文本特征,并将文本编码器提取到的各层级特征组成文本特征集; S4、对文本特征集中每一层的文本特征进行自适应加权调整: , 其中,表示加权调整后的第i层文本特征,表示对应元素相乘操作,表示对应元素相加操作,表示自适应权重W中对应于的第i层权重向量,表示文本编码器第i层提取到的文本特征; S5、将加权调整后的各层文本特征拼接成一个向量,并进行线性投影; S6、将视觉特征集中的各层视觉特征拼接成一个向量,并将其与线性投影后的文本特征通过多头注意力机制进行跨模态交互融合; S7、将跨模态交互融合得到的特征向量与视觉特征集中各层视觉特征拼接得到的向量进行融合,得到语义视觉感知融合特征; S8、将语义视觉感知融合特征用于视觉问答任务; 通过低秩适配技术对所述视觉编码器和文本编码器进行多层组逐阶段微调,包括步骤: 模型层组划分:分别将视觉编码器和文本编码器的网络层级按照深度依次划分为前层、中层和后层; 第一阶段微调:在视觉编码器和文本编码器的后层分别添加LoRA适配器,保持视觉编码器和文本编码器的预训练参数不变,仅开放插入在后层的LoRA适配器进行训练,训练过程中只更新LoRA适配器的参数; 第二阶段微调:在视觉编码器和文本编码器的中层分别添加LoRA适配器,保持视觉编码器和文本编码器的预训练参数不变,仅开放插入在后层和中层的LoRA适配器进行训练,训练过程中只更新LoRA适配器的参数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人图灵人工智能研究院(南京)有限公司;南京邮电大学,其通讯地址为:210046 江苏省南京市栖霞区马群街道紫东路2号紫东国际创意园C21栋六楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。