Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 茅台学院刘赟获国家专利权

茅台学院刘赟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉茅台学院申请的专利一种基于注意力预训练的图片问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115658865B

龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211315945.3,技术领域涉及:G06F16/3329;该发明授权一种基于注意力预训练的图片问答方法是由刘赟;张磊磊;田鹏;李浪;闫庚龙设计研发完成,并于2022-10-26向国家知识产权局提交的专利申请。

一种基于注意力预训练的图片问答方法在说明书摘要公布了:本发明公开了一种基于注意力预训练的图片问答方法,该方法包括宽度注意力、深度注意力以及注意力预训练三个模块;宽度注意力模块建模问题句与不同层次的图片特征之间的特征关联,探索不同视角下的跨模态特征交互;深度注意力模块通过重复多次注意力计算,逐步细化问题相关的重要图片区域,以深入理解图片和问题间的关联信息;注意力预训练模块将标注的注意力分布图作为先验知识,对宽度和深度注意力进行监督学习,实现宽度和深度注意力的权重初始化。本发明将人工标注的注意力分布图作为先验知识指导宽度和深度注意力学习,通过预训练对相应的注意力模型进行初始化,显著地提高了模型的收敛速度和答案预测的准确性。

本发明授权一种基于注意力预训练的图片问答方法在权利要求书中公布了:1.一种基于注意力预训练的图片问答方法,其特征在于:该方法包括以下步骤: A、宽度注意力:利用残差神经网络及堆叠自注意力网络将视觉图片编码为层级的图片特征1、图片特征2和图片特征3,以在宽度上表征图片信息,同时,利用Glove词向量和长短记忆网络将文本问题编码为问题特征,采用视觉注意力机制分别计算问题特征与图片特征1、图片特征2以及图片特征3之间的特征关联,生成图片宽度联合特征; B、深度注意力:将宽度注意力生成的图片宽度联合特征与问题特征通过记忆内存网络进行注意力计算,在此过程中注意力分布计算和内存更新重复多次; C、注意力预训练:将人工标注的注意力分布图作为先验知识,并利用残差神经网络将其提取为注意力向量;利用该先验注意力向量对宽度注意力和深度注意力联合学得的注意力分布向量进行监督学习;通过注意力预训练对宽度注意力和深度注意力进行权重初始化; D、答案预测:利用多层感知器构建分类器并以交叉熵作为分类损失函数,将深度注意力学得的问题-图片联合嵌入作为分类器输入,进行问题答案预测;在步骤A中图片特征1是利用ResNet网络提取的图片区域特征矩阵;图片特征2是利用自注意力机制建模图片特征1所得的特征矩阵,图片特征3则是利用自注意力机制建模图片特征2所生成的图片特征矩阵;具体方法为:首先采用ResNet网络将图片信息编码为图片区域特征矩阵1,表示为R1;然后,将R1作为自注意力网络的输入,建模其内部依赖关系并输出图片区域特征矩阵2,表示为R2;接着继续将R2作为自注意力网络的输入,输出图片区域特征矩阵3,表示为R3,其中,Rk={rk1,...,rki,...,rkm×m},1≤k≤3,且rki表示Rk中第i个图片区域对应的特征向量,m×m是图片区域的数量,对于图片相关的问题句,利用Glove词向量编码问题句中的每个单词,并采用LSTM建模单词序列,LSTM的最后一个输出向量q用于表示问题的特征向量; 步骤A中宽度联合特征是三种图片特征矩阵的带权融合,每种图片特征矩阵的权值是一个注意力向量,该注意力向量是由对应的图片特征与问题特征之间进行视觉注意力计算所得的;利用视觉注意力机制分别建模从宽度表征的三种图片区域特征与问题特征之间的特征关联的方法为:首先将图片区域特征矩阵和问题向量映射到c维的目标空间中,此过程可描述为:qc=σWqq+bq,其中Wr和Wq是可学习的权重矩阵,br和bq则是可学习的偏置项,σ是非线性激活函数relu;接着,将qc进行空间复制使其变成为矩阵Qc,且该矩阵的空间结构大小与矩阵一致,皆为c×m×M;然后,本发明将与Qc以按元素相乘的方式融合为并在此基础上利用1×1的卷积核及softmax函数计算问题对图片区域的注意力分布,此过程可表示为:其中表示按元素相乘,*表示卷积操作,Wα是可学习的卷积核,bα则是可学习的偏置项;之后,注意力分布用于加权建模不同图片区域的注意力强度:其中αki表示注意力分布αk的第i个元素,最后,将三种图片特征对应的三个视觉注意力机制的计算结果以按元素乘融合,生成图片宽度联合特征步骤B中深度注意力是将图片宽度联合特征与问题特征进行深度跨模态的特征交互,此过程采用迭代的记忆内存网络实现,通过反复计算问题对图片的注意力分布并更新记忆内存单元,使模型逐步细化重要的图片区域特征,捕捉问题与图片之间的深度关联;具体方法为:首先,利用全连接神经网络将图片宽度联合特征映射为内存单元MR;接着,计算问题特征qc与内存单元MR的相似性,并利用softmax函数计算问题对内存单元MR的注意力分布αm;然后,本发明进一步将αm与内存单元MR相乘,并通过全连接神经网络对结果进行映射,以此对内存单元MR进行更新,此过程可表示如为:αm=softmaxqcMR,MR←αm⊙MRWm+bm,其中,Wm和nm分别表示可学习的权重矩阵和偏置项,←表示更新操作,⊙则是在合适的轴上进行数据广播后的按元素相乘操作;由于单步的内存注意力网络可能使问题关注于不相关的图片区域,注意力难以聚焦于重要的图片特征;为解决这个问题,本发明自然地扩展单步注意力机制,使模型反复执行T次注意力计算和内存更新,以学习更有效的问题对图片的注意力,其过程可表示为:其中,1≤t≤T,上标t表示第t次计算的值,经过T轮次的计算,可视为在宽度注意力的基础上,利用深度注意力计算的问题对图片的注意力分布,则可看作问题和图片深度交互后与问题相关的图片特征;最后,本发明将问题特征qc进行空间复制使而得的矩阵Qc与进行融合和映射,生成问题-图片联合嵌入向量v;此过程可表示为其中,Wv和bv分别表示可学习的权重矩阵和偏置项,σ是非线性激活函数relu; 步骤C中权重初始化是利用人工标注的注意力先验知识进行宽度和深度注意力的监督预训练后,将预训练所得的两种注意力模型的权重进行对应注意力的初始化,在整个模型训练过程中再次对权重进行微调;步骤D中答案预测是通过softmax多类分类器实现的,分类器的类别对应于候选答案集中的答案,分类器以图片-问题联合特征作为输入,并通过最小化交叉熵损失函数进行答案分布概率预测。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人茅台学院,其通讯地址为:564507 贵州省遵义市南部新城;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。