基于动态路由注意力机制的视觉问答方法、存储介质及设备

导航：龙图腾网> 最新专利技术> 基于动态路由注意力机制的视觉问答方法、存储介质及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工程大学

摘要：基于动态路由注意力机制的视觉问答方法、存储介质及设备，属于自然语言处理技术领域。为了解决现有的引入了多层注意力的问答模型由于参数量过多，从而导致了训练时长，甚至梯度消失的问题。本发明将图像I和文本问题Q输入视觉问答模型以获得问答答案；视觉问答模型包括：对图像和文本问题进行特征提取的特征提取单元、使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新，根据注意力权重分布获取到图像中的输出向量的动态路由注意力网络单元，以及将获取到的输出向量输入到两层全连接层进行特征转换，然后通过预测层对问题的答案进行预测的答案预测单元。本发明主要用于视觉问答。

主权项：1.基于动态路由注意力机制的视觉问答方法，其特征在于，将图像I和文本问题Q输入视觉问答模型，利用视觉问答模型获得问答答案；所述视觉问答模型包括：特征提取单元：使用第一神经网络对图像I进行特征提取得到视觉特征，并使用第二神经网络对文本问题Q进行特征提取得到文本问题特征；动态路由注意力网络单元：使用动态路由的方式分别以文本问题特征、视觉特征作为参考向量和特征矩阵在图像中进行注意力权重的更新，根据注意力权重分布获取到图像中的输出向量；答案预测单元：将获取到的输出向量输入到两层全连接层进行特征转换，然后通过预测层对问题的答案进行预测；所述视觉问答模型的处理过程包括以下步骤：S1、使用第一神经网络对图像I进行特征提取得到视觉特征F；同时，使用第二神经网络对文本问题Q进行特征提取得到文本问题特征h；S2、将获取的视觉特征F和文本问题特征h输入到动态路由注意力机制网络单元中进行多步推理，动态路由注意力机制推理的具体过程如下：将文本问题特征h作为动态路由注意力机制中引导的参考向量，视觉特征F作为特征矩阵进行信息查询；视觉特征F由k个视觉特征向量组成，将视觉特征F中的每一个视觉特征向量表示为fi，即fi∈F且i∈{1,2,...,k}；首先使用映射矩阵Wf、Wh分别将每个视觉特征向量fi和文本问题特征h映射到同一空间维度，得到fip和hp：fip＝Wf·fi1hp＝Wh·h2动态路由注意力机制的输出向量s首先由参考向量h映射后的hp进行初始化，初始化后用s0表示：s0＝hp3第t次迭代后输出向量被更新为st：其中，st-1表示上一次迭代后得到的输出向量；fip是由输入的视觉特征矩阵F映射后得到的新的视觉特征Fp中的第i个视觉特征向量；ci表示第i个视觉特征向量对应的注意力权重，在每次迭代的过程中进行更新；注意力权重ci构成了视觉特征矩阵Fp上的注意力权重分布；注意力权重ci是由动态路由算法使用softmax函数计算更新：其中，bi为指数先验，表示第i个视觉特征向量fip和输出向量s相关联的指数先验概率；每次动态路由都会将指数先验bi进行更新，然后将更新后的bi用于下一次迭代过程的注意力权重ci的更新；每次迭代中bi通过在bi的原值上加上fip和输出向量s的内积进行更新：bi＝bi+fip·st6其中，st表示第t次迭代后的输出向量；动态路由注意力机制网络进行N次迭代，将经过N次迭代之后得到的输出向量sN表示为s作为输入的视觉特征F和文本问题特征h的联合特征；S3、将联合特征s输入到答案预测单元进行处理，联合特征s首先通过两层全连接层进行特征转换，预测层将转换后的特征利用损失函数进行答案预测。

全文数据：

权利要求：

百度查询：哈尔滨工程大学基于动态路由注意力机制的视觉问答方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：头孢维星衍生物中间体的制备方法

下一篇：处理网络游戏异常的方法、装置、存储介质及计算机设备

相关技术

头孢维星衍生物中间体的制备方法

处理网络游戏异常的方法、装置、存储介质及计算机设备

一种用于快速生产面包的组合物及其应用

一种抛光液供给装置和化学机械抛光设备

一种适用于多类型病理图像的自动标注方法及系统

一种翻译方法、翻译装置和计算机可读存储介质

副本存储方法、装置、存储介质及计算机设备

一种基于BTBC模型的知识图谱构建方法

一种基于多尺度特征与梯度融合操作的云图识别方法

一种基于人机混合智能的综合科技服务链集成系统及方法

基于深度表示的风电机组异常检测方法

一种基于实例分割网络的角膜移植缝合操作的AR导航方法及系统

问答相关技术

视觉问答方法、装置、设备、存储介质及产品_杭州海康威视数字技术股份有限公司_202411412767.5

一种面向智能问答系统的命名实体识别方法_南京邮电大学_202111235560.1

基于大语言模型检索增强生成的设施农业智能问答方法_浙江大学_202410950036.X

用户问答的处理方法、装置、存储介质及电子设备_杭州乒乓智能技术有限公司_202410840015.2

一种边检法律问答动态检索增强生成方法及系统_内蒙古工业大学_202410829490.X

基于混合专家大模型的医疗行业智能问答方法和系统_浪潮云信息技术股份公司_202411091691.0

一种基于知识蒸馏的呼吸暂停知识问答模型训练方法_北京小蝇科技有限责任公司_202411414096.6

一种基于医疗问答大模型的医疗数据收集方法_中科厚立信息技术(成都)有限公司_202411163486.0

基于预训练模型的智能问答方法、计算机设备与存储介质_时趣互动(北京)科技有限公司_202410763356.4

一种合同问答精准定位条款的方法_中国电建集团华东勘测设计研究院有限公司_202411039747.8

视觉相关技术

油田视觉控制框架_斯伦贝谢技术有限公司_202380029840.8

多模态视觉传感系统及使用方法、视觉传感器的制备方法_电子科技大学_202410951846.7

一种新型快速视觉对位返修设备及其视觉对位方法_深圳市卓茂科技有限公司_202011423798.2

视觉检测用焦距调节机构_苏州创信维自动化设备有限公司_202420125248.X

一种刀片视觉检测装置_上汽大众汽车有限公司_202411019795.0

袜子输送线视觉定位系统_杭州全挚科技有限公司_202411195982.4

一种视觉检测装置_合肥国轩高科动力能源有限公司_202420280225.6

一种屏幕视觉检测设备_成都利视通光电科技有限公司_202420383006.0

一种视觉传达演示器_桂林电子科技大学_202420601848.9

一种识别晶圆ID的视觉装置_科为升视觉技术(苏州)有限公司_202323525810.2

方法相关技术

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300028.7

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300300.1

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300008.X

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300022.X

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300032.3

基板干燥方法与基板处理方法_株式会社斯库林集团_202380029428.6

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300005.6

切割方法_盐城高测新能源科技有限公司_202310504079.0

治疗方法_沃卢申伊缪诺制药公司_202080046367.0

视频问答方法、系统及任务解析方法、模型训练方法_支付宝(杭州)信息技术有限公司_202410922451.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于动态路由注意力机制的视觉问答方法、存储介质及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务