首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于内存增强和软掩膜的多波段图像自动描述方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中北大学

摘要:本发明涉及图像描述方法和图像融合方法,尤其涉及多波段图像自动描述方法,具体为基于内存增强和软掩膜的多波段图像自动描述方法。将可见光图像特征、红外图像特征以及文本特征置于同一表征层级,在传统Transformer的基础上,构建内存增强模块用于存储多波段图像特征间的内在相关性以及语言上下文信息;同时,利用软掩膜机制筛选有效的视觉特征向量以及内存中存储的特征向量,以确保模型精确聚焦于关键视觉信息或语言上下文信息,可用于安防监控和军事侦察等复杂场景理解。

主权项:1.基于内存增强和软掩膜的多波段图像自动描述方法,其特征在于:设计并构建多波段图像自动描述生成模型,自动描述生成模型基于Transformer架构,包括视觉编码器和文本解码器,视觉编码器由内存增强模块和Transformer编码层构成,文本解码器包括Transformer解码层,Transformer解码层中设计了软掩膜引导的双重注意力模块;其中,内存增强模块由内存向量、模态标记和一个线性层组成;随机初始化P个具备可训练属性的内存向量;然后,对可见光图像特征、红外图像特征和内存向量加以模态标记,用于区分不同类型的输入;最后,将加以标记的三种类型的特征拼接后输入到线性层进行降维处理,得到联合输入特征并输入到Transformer编码层中;其中,Transformer解码层中包括掩码多头注意力层、软掩膜引导的双重注意力模块和前馈神经网络层,将编码器输出特征映射为键向量和值向量,经掩码多头注意力层处理后的文本特征映射为查询向量,采用缩放点积注意力计算查询向量和键向量的相似度分数,再经Softmax函数进行归一化,将其映射为注意力权重;然后,对注意力权重进行筛选,仅保留前k个最为显著的区域,其余部分则与一个可学习的掩码相乘;最后,经Softmax函数对注意力权重进行归一化处理,生成一个新的注意力权重,与值向量相乘,输出多模态特征,多模态特征经过前馈神经网络层处理后生成图像描述。

全文数据:

权利要求:

百度查询: 中北大学 基于内存增强和软掩膜的多波段图像自动描述方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。