买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种面向视觉场景图生成的多分支混合注意力模型,首先对输入图像通过基础特征提取网络提取出特征图以及检测出图中所包含的目标;将提取出的特征划分为视觉、语义、和位置特征;上述特征输入到目标上下文传递模块进行上下文信息传递以及边上下文信息传递,得到每个目标对应的综合特征向量;得到综合向量后将所有综合向量按照目标对进行组合,同时将原始的各模态向量也按照目标对关系组合;将各目标对的特征输入至多分支混合注意力模块中提取关系对的综合特征并进行谓词分类,得到最终目标关系谓词预测结果。本发明设计了多分支混合注意模块与混合区域预处理结构,能够有效提升视觉场景图的生成准确度。
主权项:1.一种面向视觉场景图生成的多分支混合注意力模型,其特征在于,它包括以下步骤:步骤1:模型输入为原始的RGB图像,首先将图像输入至特征提取即目标检测模块中检测图像中所有目标并输出其对应的特征,所述特征包括视觉特征、位置特征以及语义特征;步骤2:目标上下文信息传递以及边上下文信息传递,沿用了基于消息传递机制的模型结构,将步骤1中输出的各目标视觉、语义以及位置特征拼接后,采用LSTM结构作为信息的提取模型对特征进行信息传递计算后得到目标的综合特征,再将综合特征与目标类别输入至边上下文传递模块,最终输出每个目标的边特征向量;步骤3:将步骤1的所有目标中任意两个目标i,j的特征按照目标关系对在模态内进行两两组合得到关系对的视觉、语义、位置特征,同时将步骤2输出的综合特征向量按照目标关系对进行组合得到关系对的综合特征,共同输入至多分支混合注意力模块中;步骤4:在多分支混合注意力模块中,首先分别对输入特征进行单独自注意力特征提取,而后通过三个交叉注意力模块分别计算视觉特征、语义特征、位置特征与综合特征的关联程度,最后将各模态特征进行加权融合,输出最终特征向量,过程可用以下公式表述:三条分支的预处理阶段: 各分支的混合注意力计算: 分支特征合并阶段: 上式中,HA·表示混合注意力模块,由自注意力单元SA·和交叉注意力单元CA·组成;FC·表示全连接映射层,cat·表示特征拼接操作,Vi,Li,Pi表示各模态的视觉、语义、位置特征;步骤5:关系对视觉区域预处理,在引入关系对的视觉区域时使用混合注意力块来提取其中的重点特征,通过混合注意力块中的自注意力单元和交叉注意力单元来增强主宾目标的特征占比;交叉注意力单元的输入分为两部分,第一部分是主宾目标的类别特征和位置特征,第二部分是关系对的视觉区域特征,将输出特征与多分支混合注意力模块输出叠加得到最终特征向量;步骤6:使用分类层对步骤5中得到的特征向量进行预测分类,输出每组关系对的关系谓词预测结果。
全文数据:
权利要求:
百度查询: 西北机电工程研究所 一种面向视觉场景图生成的多分支混合注意力模型
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。