买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州启辰电子科技有限公司;华南理工大学
摘要:本发明公开了一种基于深度解耦框架的图文编码方法,步骤如下:获取待进行编码的数据,分离出每个样本的图像数据和对应的文本数据;将所述图像输入预先训练的图像编解码模型,对所述图像进行编码,得到图像向量;将对应的文本数据输入预先训练的文本编解码模型,对文本数据进行编码,得到文本向量;将图像向量和文本向量进行相加,得到一个具有公共特征的向量;并根据重构损失,一致性损失和正交损失构造总体损失函数,从而将公共特征向量解耦出图像特有特征向量和文本特有特征向量;最终,将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码。通过本发明,可同时编码图像数据和其对应的文本数据,得到高质量的图文编码表示。
主权项:1.一种基于深度解耦框架的图文编码方法,其特征在于,所述的方法包括:步骤S1、获取数据集并分离出图像数据和对应的文本数据;步骤S2、对图像数据和文本数据分别进行编码,得到图像特征向量和文本特征向量;步骤S3、将图像特征向量和文本特征向量进行相加,得到公共特征向量;步骤S4、根据重构损失,一致性损失和正交损失构造总体损失函数,从而将公共特征向量解耦出图像特有特征向量和文本特有特征向量;步骤S5、将图像特有特征向量和文本特有特征向量以及公共特征向量进行拼接,得到最终的图文编码;所述的步骤S2的编码过程如下: ; ;其中,表示图像数据源的第i个样本,表示图像编码器、解码器,表示图像编码器、解码器的参数,表示图像特征向量,表示重构出来的图像数据的第i个样本;同样地,将对应的文本数据输入到文本编码器,得到对应的文本特征向量;通过编解码操作,来重构出样本数据,以此来预训练编码器模型,此过程中,编解码模型的重构损失为: ; ;其中,,分别表示图像和文本编解码模型的重构损失,,分别表示第i个样本的图像数据和文本数据,,表示重构出来的第i个样本的图像数据和文本数据,n表示数据集的样本数量,表示向量的二范数;在获得图像和文本编码向量表示后,为了专注于从图像和文本特征中捕获公共特征,引入了一致性对齐损失来约束编码器学习公共特征向量: ;所述的步骤S3中将图像特征向量和文本特征向量进行相加,得到公共特征向量的过程如下: ;其中,表示第i个样本的公共特征向量;所述的步骤S4中根据重构损失,一致性损失和正交损失构造总体损失函数,从而将公共特征向量解耦出图像特有特征向量和文本特有特征向量的过程如下:根据上述过程得到的公共特征向量,解耦出图像特有特征向量和文本特有特征向量: ; ;其中,表示第i个样本的图像特有特征向量和文本特有特征向量;为了让图像特有特征向量和文本特有特征向量能更好地捕获各自特有的信息,引入了重构损失,使得将公共特征和特有特征一起输入解码器就可以得到原始数据: ; ;为了减少公共特征和特有特征的耦合度,引入了正交限制,来更好地分离公共特征和特有特征: ; ;根据重构损失、一致性损失和正交损失构造总体损失函数,通过总体损失函数来确定深度解耦框架的整体训练目标,其中,总体损失函数如下: ;式中,为预训练编解码模型的重构损失,表示一致性损失,表示利用公共特征和特有特征来还原原始数据的重构损失,表示正交,,表示损失项权重;利用BP算法对上述总体损失函数最小化,以达到最优化网络参数的目的。
全文数据:
权利要求:
百度查询: 广州启辰电子科技有限公司 华南理工大学 基于深度解耦框架的图文编码方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。