买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明构建了一种基于注意力机制的全局交互的图像语义解析方法,并应用于图像语义标题的生成,具体步骤为:1选择目标图像特征提取模型,对图像数据进行特征提取与编码;2搭建全局交互的双向循环神经网络对图像特征进行解析;3将提取的图像特征信息进行标准正则化处理,并以全局信息的方式实时送入语义解析模型,进行模型训练;4在语义解析过程中加入注意力机制,使模型在语义解析过程中重点关注不同图像区域的信息;5通过训练好的模型对新的目标图像进行语义解析。本发明建立的图像语义理解模型和算法生成的图像语义具有逻辑性强、语义丰富的特点,模型收敛速度快,语义解析精度高,对复杂图像或者注重细节的图像语义解析精确度高等优点。
主权项:1.一种基于注意力机制的全局交互的图像语义解析方法,其特征在于,包括以下步骤:1图像特征信息提取:对输入图像通过卷积神经网络提取图像信息,生成图像信息的高维特征向量,并将此特征向量作为图像的全局信息送入到语义解析模型进行解码;2通过语义解析模型对图像特征信息进行解码:图像的全局信息送入前向GRU网络和后向GRU网络,前向GRU网络和后向GRU网络各自独立地产生在时刻t的更新状态,用于输入至各自网络中下一个GRU单元,前向GRU网络和后向GRU网络的输出直接进行线性叠加;图像全局信息经注意力模型处理,得到当前时刻语义解析模型预测下一个文本信息时应该重点关注的图像区域ct,分别送入前向GRU网络和后向GRU网络中,并与前向GRU网络和后向GRU网络中的GRU单元的输出进行叠加,最终得到用于预测当前时刻输入图像对应的图像文本。
全文数据:
权利要求:
百度查询: 中国科学院沈阳自动化研究所 一种基于注意力机制的全局交互的图像语义解析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。