一种基于因果干预的多特征增强型图像描述方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨工业大学

摘要：本发明涉及图像描述技术领域，公开了一种基于因果干预的多特征增强型图像描述方法。首先使用深度卷积层和单一卷积层分别提取输入图像的网格特征和浅层特征。其次，设计带有位置信息增强的注意力模块，获取包含几何信息的网格特征和浅层特征。再次，构建扩展序列模块融合网格特征和浅层特征以获得完整的视觉特征。最后，提出因果调整解码块，通过切断视觉特征和语言特征间的虚假因果关系去除混淆效应，并联合视觉特征和文本特征进行解码，生成图像的自然语言描述。本发明解决了现有图像描述方法缺乏细节表述、易产生混淆的问题，有利于模型在实际场景下的部署和应用。

主权项：1.一种基于因果干预的多特征增强型图像描述方法，通过图像描述网络模型，生成对应的文本描述；图像描述模型的训练过程，其特征在于，包括以下步骤：步骤1：图像特征提取：对于图像的网格特征，使用深度卷积网络ResNeXt152提取图像网格特征XG；对于图像的边缘、纹理信息，使用单一卷积层对图像编码得到包含此类信息的浅层特征XS；步骤2：加入几何信息：在Transformer自注意力的操作过程中，加入位置相关信息的运算使得其运算包含了图像的几何信息；并分别将网格特征XG和浅层特征XS通过此模块获得带有位置相关信息的特征X′G和X′S；步骤3：特征融合并编码得到视觉特征使用扩展序列模块融合具有几何信息的网格特征和浅层特征来得到最终的视觉图像特征步骤4：对图像特征的解码过程中加入因果调整模块并预测输出：初始化语义向量W，联合视觉特征作为Transformer解码块的输入，在解码过程中通过因果调整模块去除视觉和语义之间的混杂因素，并通过层归一化和Softmax层逐步生成文本描述L＝[l1,l2,…,ln]，其中li是句子中的第i个单词，n表示句子的长度；步骤5：损失函数计算：定义图像描述损失函数LCEθ为：其中θ表示模型的可学习参数集合，通过训练过程不断优化，以最小化损失函数并提高模型的预测性能，n表示句子的长度，li是句子中的第i个单词，l1:i-1表示从第1个到第i-1个位置的所有词，pθli|l1:i-1代表生成第i个单词的概率。

全文数据：

权利要求：

百度查询：哈尔滨工业大学一种基于因果干预的多特征增强型图像描述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种通用性电机调速模块

下一篇：具有均匀氢键合相互作用、同碱基对和异碱基对偏好以及错配辨别力的修饰核碱基

相关技术

一种通用性电机调速模块

具有均匀氢键合相互作用、同碱基对和异碱基对偏好以及错配辨别力的修饰核碱基

一种金属镱的显微组织显示方法

热回收系统的控制方法、控制装置及计算机可读存储介质

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

一种基于电子元器件控制的防卡死智能锁体

一种木门加工灰尘清理装置

用于修复叶片根部的方法

水泵减振装置

一种可热封餐盒及其制备方法

信息展示方法及电子设备

公路软土路基超载预压时超载比的确定方法、装置及介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于因果干预的多特征增强型图像描述方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务