Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜华中师范大学曾江峰获国家专利权

恭喜华中师范大学曾江峰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜华中师范大学申请的专利一种图像文本视觉问答方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114092707B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111368159.5,技术领域涉及:G06V10/42;该发明授权一种图像文本视觉问答方法、系统及存储介质是由曾江峰;马霄;段尧清;文轩;兰又铭;黄泳潼设计研发完成,并于2021-11-18向国家知识产权局提交的专利申请。

一种图像文本视觉问答方法、系统及存储介质在说明书摘要公布了:本发明公开了一种图像文本视觉问答方法、系统及存储介质。所述方法包括:获取目标图像对象和目标问题对象;进行特征提取,获得图像视觉特征、图像文本特征、问题文本特征;将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间,对同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合;将编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块,获得目标答案。采用本发明所述的方法进行图像文本视觉问答任务,步骤简单、效率高、准确率高。

本发明授权一种图像文本视觉问答方法、系统及存储介质在权利要求书中公布了:1.一种图像文本视觉问答方法,其特征在于,所述方法包括:获取目标图像对象和目标问题对象;对所述目标图像对象进行图像视觉特征提取,获得图像视觉特征;对所述目标图像对象进行图像文本特征提取,获得图像文本特征;对所述目标问题对象进行问题文本特征提取,获得问题文本特征;将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征空间,得到同一维度的图像视觉特征、图像文本特征和问题文本特征;对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合,得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征;将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块,获得目标答案;所述对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融合,得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征,包括:将所述同一维度的图像视觉特征、图像文本特征和问题文本特征输入多层模内模间信息融合网络,得到编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征;所述多层模内模间信息融合网络包括跨模态交互模块和模内交互模块,所述跨模态交互模块和模内交互模块组成模内模间信息融合模块;其中,所述跨模态交互模块用于获取不同模态间的相关性;所述模内交互模块用于获取每个模态内实例之间的关系,并为跨模态交互模块提供补充信息;模内模间信息融合模块首先将多个模态的特征传递到跨模态交互模块中,跨模态交互模块基于SDA或SDAG机制学习三个模态之间的跨模态关系并更新三个模态的特征,使得每个模态的输出特征包含其他模态的相关信息;跨模态交互模块在文本模态与图像模态之间和文本模态与OCR标记模态之间的关系学习中使用SDA机制进行关系学习,而在图像模态与OCR标记模态之间的跨模态交互中则使用SDAG机制来学习相关权重;利用SDAG机制计算物体对象边界框与文字对象边界框的中心位置和尺寸,以及物体对象边界框与文字对象边界框之间的交并比,从而获得更丰富的空间信息,以生成指导信息矩阵,并将指导信息矩阵应用于视觉区域和OCR标记特征之间的交互,以学习每个物体对象和OCR标记对像之间的空间相关权重;所述将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本特征和问题文本特征输入答案生成模块,获得目标答案,包括:采用多层特征联合预测方法使用答案生成模块对每层模内模间信息融合模块的输出结果生成一个答案预测分数;第t个答案预测分数表示为多层特征联合预测方法计算出这些分数的平均值yf,最后取yf中分数最高项对应的候选答案作为最终答案即目标答案;多层特征联合预测方法考虑了不同抽象级别的特征对答案的贡献;所述多层特征联合预测方法预测答案,包括以下步骤:第i个OCR标记特征被一个分类器转换为关于第i个OCR标记的预测分数通过均值池化操作融合图像视觉特征和问题文本特征通过逐元素相乘方法整合以上两个特征,获得融合特征;将融合特征通过多层感知机网络,生成预测分数yvoca;选择和yvoca中分数最高的作为预测答案的分数取各分数的平均值yf,最高得分yfinal所对应的候选答案作为目标答案。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华中师范大学,其通讯地址为:430079 湖北省武汉市洪山区珞喻路152号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。