南京邮电大学刘倩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于记忆网络和卷积增强的视觉问答处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117668282B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311581604.5,技术领域涉及:G06F16/583;该发明授权一种基于记忆网络和卷积增强的视觉问答处理方法是由刘倩;张萌萌;程春玲设计研发完成,并于2023-11-24向国家知识产权局提交的专利申请。
本一种基于记忆网络和卷积增强的视觉问答处理方法在说明书摘要公布了:本发明提供一种基于记忆网络和卷积增强的视觉问答处理方法,属于计算机视觉和自然语言处理领域结合的跨模态任务技术领域,通过记忆网络利用与图像相关的历史问题信息从全局角度生成图像的记忆补充特征,从而能够更加有效地利用同一张图像对应的历史问题中的互补信息,为模型提供更加全面和精确的历史记忆。其次应用卷积增强在问题引导的图像特征上进一步提取局部关键信息,随后与图像的记忆补充特征进行重加权融合,使模型在回答问题时更加关注与当前问题最相关的图像部分,从局部角度更精确的提取历史问题的互补信息,提高视觉问答模型的准确率。
本发明授权一种基于记忆网络和卷积增强的视觉问答处理方法在权利要求书中公布了:1.一种基于记忆网络和卷积增强的视觉问答处理方法,其特征在于,包括如下步骤: S1、对视觉问答数据集进行预处理,获得同一图像对应的问题本文对; S2、对同一图像对应的问题本文对分别进行特征提取,对应获得图像初始特征和问题初始特征; S3、以图像初始特征与问题初始特征为输入,以问题的全局特征、图像的全局特征、卷积增强后图像的问题引导特征为输出,构建协同注意力层,获得问题的全局特征、图像的全局特征、卷积增强后图像的问题引导特征; 协同注意力层包括l个顺序连接的堆叠的自注意力单元、以及m个顺序连接的卷积增强的引导注意力单元,堆叠的自注意力单元与卷积增强的引导注意力单元以编码器-解码器结构进行深层级联;第一个堆叠的自注意力单元、以及第一个卷积增强的引导注意力单元分别作为协同注意力层的第一输入端、第二输入端;每个卷积增强的引导注意力单元包括顺序连接的第一多头自注意力-残差连接与归一化模块、第二多头自注意力-残差连接与归一化模块、以及卷积增强的FFN模块Conv-ffn、残差连接与归一化模块; 第一个堆叠的自注意力单元用于接收来自特征提取层输出的问题的初始特征,第一个卷积增强的引导注意力单元用于接收来自特征提取层输出的图像的初始特征;每个堆叠的自注意力单元对前一个堆叠的自注意力单元输出的特征进行叠加,最后一个堆叠的自注意力单元作为协同注意力层的第一输出端,用于输出问题的全局特征; 最后一个堆叠的自注意力单元将问题的全局特征输出至第一个卷积增强的引导注意力单元,第一个卷积增强的引导注意力单元将图像的初始特征和问题的全局特征进行卷积增强,然后输出至第一个卷积增强的引导注意力单元之后顺序连接的卷积增强的引导注意力单元,得到图像的全局特征、以及卷积增强后图像的问题引导特征; S4、以问题的全局特征、图像的全局特征、以及卷积增强后图像的问题引导特征为输入,以图像的记忆交互特征为输出构建记忆交互层,获得含有互补信息的图像的记忆交互特征; 步骤S4中,构建记忆交互层包括输入特征的生成、通用记忆的存储、注意力的计算、记忆交互特征的输出,具体包括以下步骤: S401、输入特征的生成:根据图像获取与该图像对应的当前问题的特征向量,生成一个二元组作为记忆交互层的输入; S402、通用记忆的存储:通用记忆M采用键值对存储记忆,以图像为键Key,以该图像对应的历史问题的特征向量的拼接值为值Value,键值增量式存储,对于输入特征中的一个二元组,在通用记忆M的键中未查询到,则新增以图像为键的条目,其值为当前问题的特征向量;若在通用记忆M的键中查询到,则先提取其对应的值,再与当前问题的特征向量拼接后更新原值,通过增量的方式记忆图像所对应的所有历史信息; S403、注意力计算:使用通用记忆M中存储的历史问题的特征,以及卷积增强的引导注意力单元计算过程中产生的图像全局特征,经过注意力操作得到图像的记忆补充特征,计算过程如下公式: , 其中,为注意力计算; S404、记忆交互特征的输出:对卷积增强后图像的问题引导特征和图像的记忆补充特征进行重加权融合操作得到图像的记忆交互特征,计算过程如下公式: , , ,, 其中,为对进行归一化后得到的概率分布,为归一化激活函数,为全连接层,为向量拼接操作;通过归一化后得到,利用对进行重加权得到;最后将与经全连接层维度变换后拼接得到最终的图像记忆交互特征; S5、以步骤S3获得的问题的全局特征、卷积增强后图像的问题引导特征,以及步骤S4获得的图像的记忆交互特征为输入,以图文融合特征为输出构建特征融合层,进行特征融合,获得图文融合特征; S6、以图文融合特征为输入,以预测的问题答案为输出构建分类层,获得图像预测的答案。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励