买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽小水信息科技有限公司
摘要:本发明公开了一种基于双模态变换和共识感知的遥感视觉问答方法,包括:1、通过基于CLIP模型的图像以及文本特征提取网络得到图像以及文本特征表示;2、通过自注意力处理模块、共同注意机制模块获得具有视觉和文本表示内部及其之间的依赖关系的文本特征表示以及图片特征表示;3、构建基于图卷积神经网络的知识特征提取网络提取共现知识特征表示;4、通过特征融合网络得到综合表征特征;5、通过交叉熵损失函数以更新网络参数,以此训练得到最优匹配模型。本发明通过基于图卷积神经网络的知识特征提取网络提取共现知识特征表示,挖掘了深层次的文本知识,大大提高了文本信息的利用效率,从而大大提高了遥感视觉问答的准确率。
主权项:1.一种基于双模态变换和共识感知的遥感视觉问答方法,其特征在于,包括如下步骤:步骤1、构建视觉问答中答案索引表AnsVoc和真实答案标签OGT;步骤2、搭建基于CLIP模型的特征提取网络,包括:图像特征提取模块、文本特征提取模块;步骤2.1、从视觉对话数据集中获取任意一个图像pic及其对应的问题文本que、答案文本,并在真实答案标签集OGT中提取对应所述答案文本的真实答案标签o;步骤2.2、所述图像特征提取模块使用CLIP模型对图像pic进行特征提取,获得图像pic的初级区域特征集Vpic={v1,...,vi,...,vq},vi表示图像pic的第i个初级区域特征,vi∈Rd;d表示特征的维度,q表示特征的总数,i=1,...,q;步骤2.3、所述文本特征提取模块使用CLIP模型对问题文本que进行单词级特征提取,获得一组初级单词特征集T={t1,...,tj,...,tJ},tj表示第j个初级单词特征,tj∈Rm,j=1,...,J;m表示特征的维度,J表示单词特征的总数;步骤3、搭建特征处理模块,并分别对Vpic和T进行处理,相应得到图像pic的最终区域级特征V”和问题文本que的最终单词级特征T”;步骤4、搭建基于图卷积神经网络的知识特征提取网络,并用于对所述视觉问答数据集中所有问题文本进行处理,得到知识特征表示Z;步骤5、搭建特征融合网络,并根据T”和V”得到图像pic及其对应的问题文本que的实例级特征fI;根据Z得到图像pic及其对应的问题文本que的知识特征fC,从而得到综合表征信息fU;步骤6、对由特征提取网络、特征处理模块、知识特征提取网络和特征融合网络构成的遥感视觉问答网络的参数进行优化,得到最优遥感视觉问答模型,用于对输入的多模态遥感图片进行视觉问答。
全文数据:
权利要求:
百度查询: 安徽小水信息科技有限公司 一种基于双模态变换和共识感知的遥感视觉问答方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。