清华大学深圳国际研究生院李秀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉清华大学深圳国际研究生院申请的专利一种基于Diffusion Transformer的风格对齐图像集生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119515669B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411447749.0,技术领域涉及:G06T3/04;该发明授权一种基于Diffusion Transformer的风格对齐图像集生成方法是由李秀;林一舟;朱晨阳;马跃;王江山;应季轩设计研发完成,并于2024-10-16向国家知识产权局提交的专利申请。
本一种基于Diffusion Transformer的风格对齐图像集生成方法在说明书摘要公布了:本发明提出了基于DiffusionTransformer的风格对齐图像集生成方法。该方法首先利用文本编码器将文本提示转换为文本特征,然后通过一个定制的DiT生成模型,其中传统的多头自注意层被风格对齐注意力层替代。所述风格对齐注意力层利用文本特征指导图像生成,同时使用第一张生成的图像作为风格参考,通过自适应实例归一化AdaIN和位移缩放的点积注意力机制来确保生成的图像风格一致。最终,该方法能够高效地并行生成风格一致的图像集,适应不同纵横比的图像生成需求,如海报等非方形图像。
本发明授权一种基于Diffusion Transformer的风格对齐图像集生成方法在权利要求书中公布了:1.一种基于DiffusionTransformer的风格对齐图像集生成方法,其特征在于,包括: 接收一组文本提示,所述文本提示用于描述期望生成的图像集的风格和内容特征;并使用文本编码器模块,将所述文本提示编码成文本特征; 构建和使用基于DiffusionTransformer的DiT生成模型,该模型通过一系列Transformer模块来生成图像,其中DiT的原有多头自注意层被替换为风格对齐注意力层;其中,先将随机初始化的潜向量输入到DiT模型的第一个Transformer模块中;在所述DiT生成模型的每个后续Transformer模块中,通过风格对齐自注意层处理前一模块输出的潜向量,并将处理后的潜向量作为查询传递到下一个风格对齐注意力层;在风格对齐注意力层中,将所述文本特征作为键和值注入,以指导图像生成过程;通过各Transformer模块的处理,在所述DiT生成模型的最后一层输出潜向量,作为生成图像的基础; 所述DiT生成模型通过风格对齐注意力层将第一张生成的图像作为风格参考,并对所有生成图像的潜向量进行自适应实例归一化AdaIN,以对齐风格;使用位移缩放的点积注意力机制,在风格对齐注意力层中融合风格信息;由此,通过风格对齐注意力层共享和对齐风格信息,实现并行生成多张图像,以生成风格一致的图像集;所述风格对齐注意力层的操作包括:将生成的图像潜向量投影到查询Q、键K和值V向量;使用第一张生成的图像的相应分量作为参考,对所有生成图像的潜向量进行自适应实例归一化AdaIN,以调整查询和键向量;将归一化后的查询和键与参考键和值连接,形成融合的风格特征;通过位移缩放的点积注意力机制,结合共享分数变化因子,对风格特征进行信息融合;调整设定的可调参数X的值以平衡图像风格一致性和文本对齐性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学深圳国际研究生院,其通讯地址为:518071 广东省深圳市南山区桃源街道丽水路2279号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励