恭喜杭州电子科技大学颜成钢获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利基于长短期跨模态一致性推理的迭代文本图像生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114943790B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210579474.0,技术领域涉及:G06T11/00;该发明授权基于长短期跨模态一致性推理的迭代文本图像生成方法是由颜成钢;丛高翔;李亮;徐常亮;张深源;王仲远;高婷婷;朱尊杰;陈楚翘;高宇涵设计研发完成,并于2022-05-25向国家知识产权局提交的专利申请。
本基于长短期跨模态一致性推理的迭代文本图像生成方法在说明书摘要公布了:本发明公开了基于长短期跨模态一致性推理的迭代文本图像生成方法。首先获取文本指令意图的特征向量表示;然后提取源视觉图像的长期视觉特征信息和短期视觉特征信息;再构建目标图像生成器,通过目标图像生成器输出目标图像;将文本指令信息,长短期源视觉特征和生成的目标图像共同输入到长短期跨模态判别器,分别输出长期跨模态的一致性得分和短期跨模态的一致性得分。本发明通过长短期的一致性推理,模型可以更好地在语义空间对齐物体的视觉属性和相关地文本指令,以及更好地构建物体与物体之间的相对位置关系,进一步地保证了用户文本与所述图像的跨模态一致性,提高了生成质量。
本发明授权基于长短期跨模态一致性推理的迭代文本图像生成方法在权利要求书中公布了:1.基于长短期跨模态一致性推理的迭代文本图像生成方法,其特征在于,包括如下步骤:步骤1:获取迭代序列中的文本指令和对应的真实图像,文本指令使用Glove模型进行预处理,真实图像用于后续的对抗训练;步骤2:将预处理好的文本指令输入到指令编码器,获取迭代过程中的文本指令意图的特征向量表示;步骤3:从迭代视觉场景中提取源视觉图像的长期视觉特征信息和短期视觉特征信息;步骤4:构建目标图像生成器,通过目标图像生成器输出目标图像;所述目标图像生成器,分别将长短期视觉特征与文本指令进行跨模态融合,然后再利用图像解码器解码多模态的合成表征,并生成128x128的目标图像;步骤5:将步骤2提取的文本指令信息,步骤3获得的长短期源视觉特征,步骤4生成的目标图像共同输入到长短期跨模态判别器,分别输出长期跨模态的一致性得分和短期跨模态的一致性得分;步骤6:构建长短期一致性对抗损失;所述长短期一致性对抗损失分为目标图像生成器的损失函数和长短期跨模态判别器的损失函数;通过最小化目标图像生成器的损失函数,保证生成目标图像的质量和良好的逻辑性;通过最小化长短期跨模态判别器的损失函数,来确保模型能够判别长短期视觉变化和用户意图之间的跨模态一致性;步骤7:通过交替地训练目标图像生成器和长短期跨模态判别器中的模型参数,当长短期跨模态一致性对抗损失函数达到最优解时,通过训练得到的目标图像生成器将输出所需的目标图像;所述步骤2中,所述的指令编码器具有一种层次化文本信息提取结构,包括单词级的文本编码器和句子级的文本编码器;所述单词级的文本编码器通过双向GRU对当前文本指令进行编码; 其中,dt代表了双向GRU最后一个隐藏状态,也代表了当前指令的语义表示;n表示预处理之后每个句子的单词个数;表示整条句子中每个单词的特征嵌入向量;所述句子级文本编码器通过一个单向GRU对当前指令以及历史文本指令进行编码;ht=GRUdt,ht-12其中,ht代表了当前用户指令意图的表示;ht-1代表了历史指令信息;所述长期视觉特征信息和短期视觉特征信息,利用一个浅层的卷积神经网络CNN从源视觉图像中获取; 其中,It-1代表t-1时刻的源视觉图像;It-m代表t-m时刻的源视觉图像,m是一个可设置的超参数,m越大代表长期时间跨度就越大。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。