买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工程大学
摘要:基于动态路由注意力机制的视觉问答方法、存储介质及设备,属于自然语言处理技术领域。为了解决现有的引入了多层注意力的问答模型由于参数量过多,从而导致了训练时长,甚至梯度消失的问题。本发明将图像I和文本问题Q输入视觉问答模型以获得问答答案;视觉问答模型包括:对图像和文本问题进行特征提取的特征提取单元、使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量的动态路由注意力网络单元,以及将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测的答案预测单元。本发明主要用于视觉问答。
主权项:1.基于动态路由注意力机制的视觉问答方法,其特征在于,将图像I和文本问题Q输入视觉问答模型,利用视觉问答模型获得问答答案;所述视觉问答模型包括:特征提取单元:使用第一神经网络对图像I进行特征提取得到视觉特征,并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征;动态路由注意力网络单元:使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新,根据注意力权重分布获取到图像中的输出向量;答案预测单元:将获取到的输出向量输入到两层全连接层进行特征转换,然后通过预测层对问题的答案进行预测;所述视觉问答模型的处理过程包括以下步骤:S1、使用第一神经网络对图像I进行特征提取得到视觉特征F;同时,使用第二神经网络对文本问题Q进行特征提取得到文本问题特征h;S2、将获取的视觉特征F和文本问题特征h输入到动态路由注意力机制网络单元中进行多步推理,动态路由注意力机制推理的具体过程如下:将文本问题特征h作为动态路由注意力机制中引导的参考向量,视觉特征F作为特征矩阵进行信息查询;视觉特征F由k个视觉特征向量组成,将视觉特征F中的每一个视觉特征向量表示为fi,即fi∈F且i∈{1,2,...,k};首先使用映射矩阵Wf、Wh分别将每个视觉特征向量fi和文本问题特征h映射到同一空间维度,得到fip和hp:fip=Wf·fi1hp=Wh·h2动态路由注意力机制的输出向量s首先由参考向量h映射后的hp进行初始化,初始化后用s0表示:s0=hp3第t次迭代后输出向量被更新为st: 其中,st-1表示上一次迭代后得到的输出向量;fip是由输入的视觉特征矩阵F映射后得到的新的视觉特征Fp中的第i个视觉特征向量;ci表示第i个视觉特征向量对应的注意力权重,在每次迭代的过程中进行更新;注意力权重ci构成了视觉特征矩阵Fp上的注意力权重分布;注意力权重ci是由动态路由算法使用softmax函数计算更新: 其中,bi为指数先验,表示第i个视觉特征向量fip和输出向量s相关联的指数先验概率;每次动态路由都会将指数先验bi进行更新,然后将更新后的bi用于下一次迭代过程的注意力权重ci的更新;每次迭代中bi通过在bi的原值上加上fip和输出向量s的内积进行更新:bi=bi+fip·st6其中,st表示第t次迭代后的输出向量;动态路由注意力机制网络进行N次迭代,将经过N次迭代之后得到的输出向量sN表示为s作为输入的视觉特征F和文本问题特征h的联合特征;S3、将联合特征s输入到答案预测单元进行处理,联合特征s首先通过两层全连接层进行特征转换,预测层将转换后的特征利用损失函数进行答案预测。
全文数据:
权利要求:
百度查询: 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。