买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学院信息工程研究所
摘要:本发明公开了一种基于视觉语言模型的图像变化描述方法,包括以下步骤:1网络输入为变化前图像、变化后图像以及描述该变化的一段文本,将该文本转化为特征向量作为视觉语言模型的第一个输入;2变化前图像和变化后图像经过特征提取初步提取特征,并将两幅图像对应的特征输入视点编码模块;3经过视点编码模块的图像特征随后输入变化编码模块,得到不同点增强后的图像特征;4两幅图像不同点增强后的图像特征作为视觉语言模型的第二、三个输入,训练视觉语言模型;5对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入视觉语言模型,预测输出图像A、B的变化描述信息。
主权项:1.一种基于视觉语言模型的图像变化描述方法,其步骤包括:1选取多个图像,对每一图像进行变化,生成变化后的图像以及描述该图像变化的文本,将该图像变化前后的图像及对应的文本作为一个训练样本,对所选视觉语言模型进行训练;2将训练样本中的文本经词向量嵌入模块转化为特征向量R作为视觉语言模型的输入;将该训练样本变化前图像和变化后图像分别进行特征提取,并将变化前图像对应的特征Xbef与变化后图像对应的特征Xaft输入视点编码模块,计算两图像的相似性并根据相似性对特征Xbef进行加强得到特征对特征Xaft进行加强得到特征后输入变化编码模块;3所述变化编码模块在特征中融合特征内的视点信息并编码,得到不同点增强后的图像特征作为视觉语言模型的输入;所述变化编码模块在特征中融合特征内的视点信息并编码,得到不同点增强后的图像特征作为视觉语言模型的输入;4所述视觉语言模型根据输入的特征向量R以及图像特征输出预测的变化信息Y;根据变化信息Y和对应训练样本中的文本,利用使用交叉熵损失函数对所述视觉语言模型进行优化;5对于一对待处理图像A、B,依次经所述视点编码模块、变化编码模块处理得到图像A、B不同点增强后的图像特征并输入所述视觉语言模型,预测输出图像A、B的变化描述信息。
全文数据:
权利要求:
百度查询: 中国科学院信息工程研究所 一种基于视觉语言模型的图像变化描述方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。