Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜大连理工大学张璐获国家专利权

恭喜大连理工大学张璐获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜大连理工大学申请的专利一种基于图像修复模型的文本驱动主体个性化补全方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119722872B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510227784.X,技术领域涉及:G06T11/60;该发明授权一种基于图像修复模型的文本驱动主体个性化补全方法是由张璐;杨镒丞;杜思雨;卢湖川设计研发完成,并于2025-02-28向国家知识产权局提交的专利申请。

一种基于图像修复模型的文本驱动主体个性化补全方法在说明书摘要公布了:一种基于图像修复模型的文本驱动主体个性化补全方法,属于图像的生成和编辑领域。步骤一为个性化微调图像修复模型;步骤二为两阶段的图像补全。本发明通过进一步优化基于DreamBooth的个性化微调方法解决主体特征属性耦合问题,并提出向量分解进一步解决耦合问题,以及提出了两阶段图像个性化补全框架来提高图像修复质量,最终实现了高质量的文本驱动主体个性化补全方法。

本发明授权一种基于图像修复模型的文本驱动主体个性化补全方法在权利要求书中公布了:1.一种基于图像修复模型的文本驱动主体个性化补全方法,其特征在于,步骤如下:步骤一、个性化微调图像修复模型;步骤二、两阶段的图像补全;所述的步骤一具体包括:(1.1)获取一组具有共同目标主体的图像以及图像对应的文本描述,其中每张图像与其对应的文本描述作为一个主体数据对,构成微调图像修复模型的训练数据,以让图像修复模型学习到目标主体的特征;所述的图像对应的文本描述是指含有身份标记的对目标主体的简洁描述;(1.2)基于用户提出的目标问题,采用多模态大语言模型对步骤(1.1)中所述的一组具有共同目标主体的图像中的目标主体的属性进行特征描述,得到包括所有特征描述的键值对;基于键值对再次采用多模态大语言模型,并基于用户进一步提出的目标问题,得到更多关于目标主体描述的正则文本;正则文本为不含有身份标记的包括键值对中部分目标主体特征的详细描述;(1.3)借助基于文本控制的图像生成模型,基于步骤(1.2)得到的正则文本生成指定数量的正则图像,得到包括正则文本和正则图像的正则数据对;(1.4)借助图像分割模型获取主体数据对和正则数据对中所有图像的掩码,并将掩码添加到对应的主体数据对和正则数据对中用于图像修复模型的微调;所有图像包括步骤(1.3)得到的正则图像和步骤(1.1)中目标主体的图像;(1.5)使用步骤(1.4)得到的加入了掩码的主体数据对和正则数据对,对图像修复模型进行微调,对于不同的主体数据对和正则数据对应采用不同的采样概率,并基于lora方法对图像修复模型进行微调训练,学习到目标主体的特征;所述的步骤二包括:(2.1)图像补全的过程中,微调后的图像修复模型的输入包括需要补全的背景图片、背景图片对应的二值掩码图片、用户在二值掩码图片上指定的补全区域以及用户设定的针对目标主体的含有身份标记的个性化文本描述;补全区域用于补全目标主体,对背景图片和二值掩码图片中包含且大于补全区域的相同位置裁剪出指定大小的区域得到局部图片和局部二值掩码;将用户设定的针对目标主体的含有身份标记的个性化文本描述、需要补全的背景图片、背景图片对应的二值掩码图片、局部图片和局部二值掩码送入微调后的图像修复模型中;(2.2)将用户设定的针对目标主体的含有身份标记的个性化文本描述用文本编码器进行编码得到,对步骤(1.2)得到的键值对使用文本编码器进行编码得到,接下来应用向量分解进行特征的解耦,得到解耦后的特征向量,解耦的公式如下: 其中,表示向量的模;(2.3)对局部图片编码得到局部图片的潜变量,用标准正态分布初始化相同维度的随机噪声,并对局部图片的潜变量进行扩散修复模型的前向加噪到时间步T,T为扩散修复模型总的加噪步数,得到含噪局部图片的潜变量;之后将含噪局部图片的潜变量与步骤(2.2)得到的解耦后的特征向量同时送入UNet中进行去噪,获得初始预测噪声;(2.4)扩散修复模型使用步骤(2.3)得到的初始预测噪声对步骤(2.3)去噪前的含噪局部图片的潜变量进行去噪,获得去噪局部图片的潜变量;接下来利用步骤(2.3)标准正态分布初始化相同维度的随机噪声,对步骤(2.3)得到的局部图片的潜变量前向加噪到当前时间步,得到当前时间步含噪局部图片的潜变量;对去噪局部图片的潜变量、当前时间步含噪局部图片的潜变量使用局部二值掩码进行融合,得到需要输入到UNet中的含噪局部图片的潜变量,与步骤(2.2)得到的解耦后的特征向量同时送入UNet中进行去噪,获得当前时间步的预测噪声,作为下一时间步的扩散修复模型的去噪输入;重复本步骤直到,得到最后时间步的预测噪声;其中为手动设置的超参数,T为扩散修复模型总的加噪步数;融合公式如下: 其中表示去噪局部图片的潜变量,为局部二值掩码,表示t时间步含噪局部图片的潜变量;表示矩阵的逐元素相乘运算;(2.5)在扩散修复模型中,使用最后时间步的预测噪声对最后一个时间步融合后的去噪局部图片的潜变量进行彻底的去噪,直接预测的干净的潜变量,然后使用解码器对干净的潜变量进行解码,得到局部干净图片;接下来根据步骤(2.1)的裁剪区域,将局部干净图片与输入的背景图片融合得到全局干净图片,然后使用编码器编码得到全局干净图片对应的潜变量;(2.6)将步骤(2.5)得到的全局干净图片与步骤(2.1)输入的背景图片对应的二值掩码图片一同编码,送入UNet中;同时,在扩散修复模型中,利用步骤(2.3)标准正态分布初始化相同维度的随机噪声,对步骤(2.5)得到的全局干净图片对应的潜变量前向加噪到,得到干净图片加噪后的潜变量,然后同样送入UNet中,得到全局预测噪声;(2.7)使用步骤(2.6)得到的全局预测噪声对步骤(2.6)干净图片加噪后的潜变量进行去噪,获得去噪全局图片的潜变量;(2.8)扩散修复模型利用步骤(2.3)标准正态分布初始化相同维度的随机噪声,对步骤(2.5)得到的全局干净图片对应的潜变量前向加噪到当前时间步,得到当前时间步含噪全局图片的潜变量;对步骤(2.7)得到的去噪全局图片的潜变量、当前时间步含噪全局图片的潜变量使用背景图片对应的二值掩码图片进行融合,得到需要输入到UNet中的含噪全局图片的潜变量,与步骤(2.2)得到的解耦后的特征向量同时送入UNet中进行去噪,获得当前时间步的预测噪声,使用预测噪声对输入到UNet中的含噪全局图片的潜变量进行去噪,得到下一时间步去噪全局图片的潜变量,作为下一时间步的扩散修复模型的去噪输入;重复本步骤直到,得到最终时间步的不含噪声的全局图片的潜变量;融合公式如下: 其中表示去噪全局图片的潜变量,为背景图片对应的二值掩码图片,表示t时间步含噪全局图片的潜变量;(2.9)使用扩散修复模型的图像解码器对步骤(2.8)得到的不含噪声的全局图片的潜变量进行图像解码,得到用户所需要的个性化补全的图像。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116000 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。