首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于潜在一致性模型的无需微调高效拖拽式编辑方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江大学

摘要:本发明公开了一种基于潜在一致性模型的无需微调高效拖拽式编辑方法,包括:设定拖拽点、特征范围,使用变分自编码器将原始图像映射到隐空间并克隆;使用拖拽、控制双流策略保证一致性,去噪过程中拖拽流部分Self‑Attention的Key、Value替换为控制流特征;使用潜在一致性模型自理解力进行拖拽,在拖拽流中对克隆后的隐向量添加高噪声后,将源点附近特征更新到目标区域,用高斯噪声覆盖原始特征区域随后去噪;使用高低噪声交错的循环修正策略,高噪声拖拽后利用低噪声修正;迭代以上步骤,变分自编码器解码输出拖拽完成图像,并通过交互界面展示给用户。本发明旨在解决自然语言难以对图像的空间属性进行细粒度控制的图像编辑挑战,同时兼顾拖拽速度与图像生成质量。

主权项:1.一种基于潜在一致性模型的无需微调高效拖拽式编辑方法,其特征在于,包括以下步骤:S1、通过Gradio框架提供用户友好的交互界面,获取用户上传的参数,根据用户上传的参数对交互界面和一致拖拽算法、以及扩散模型和一致性模块均进行初始化,设定调度编辑器,将用户上传的参数输入到交互界面后,将参数设定通过图形化方式反馈给用户;其中,用户上传的参数包括原始图像、拖拽点坐标集合、拖拽特征范围以及图像的掩码区域;S2、将原始图像输入到扩散模型的变分自编码器中,将原始图像编码至隐空间后,得到原始的隐向量,将原始的隐向量进行克隆,得到克隆后的隐向量,并进行梯度截断处理;获取用户输入的文本提示,通过文本编码器进行编码,用于为扩散模型提供文本条件;对图像的掩码区域进行双线性插值,使其与原始的隐向量大小一致,得到隐空间掩码区域,对拖拽特征范围根据所述变分自编码器的缩放因子进行缩放,得到缩放后的拖拽特征范围;S3、依次计算拖拽点坐标集合中每个源位置到对应的目标位置之间的向量差,用于确定原始的隐向量拖拽的方向和距离,依次计算每个向量差的范数,在所有的范数中间选择一个最大值,随后,基于范数的最大值和预定义的步长计算所需的拖拽次数,当计算出的拖拽次数判断拖拽次数不符合拖拽效果预期时,调整拖拽次数以优化拖拽效果;S4、在一致拖拽算法中,将原始的隐向量与克隆后的隐向量进行高的高斯噪声加噪,对应得到加噪后的原始隐向量和加噪后的克隆隐向量,计算新的源位置和新的目标位置后,根据新的源位置选出加噪后的克隆隐向量中的克隆隐特征并更新到新的目标区域,得到拖拽后的克隆隐向量,并用高斯噪声覆盖拖拽后的克隆隐向量原始区域和更新后区域之间的未重叠部分,得到更新后的克隆隐向量;S5、将扩散模型和一致性模块组合成潜在一致性模型,执行一致拖拽算法的两阶段循环,满足第一阶段循环次数大于第二阶段循环次数,在第一阶段循环中,将加噪后的原始隐向量与更新后的克隆隐向量利用潜在一致性模型进行噪声预测,对预测结果使用一致采样方式进行采样,得到克隆后的新隐向量;在第一阶段循环的噪声预测过程中,执行采样调度程序,将扩散模型拖拽流部分Self-Attention的键特征和值特征分别替换为控制流的键特征以及值特征,需调整的扩散模型拖拽流部分Self-Attention所在的层序列为[16,17,18];在第二阶段循环中,对克隆后的新隐向量进行低的高斯噪声加噪,得到加噪后的新克隆隐向量,并对加噪后的新克隆隐向量进行去噪修正,得到单次拖拽后的克隆隐向量;S6、重复S4~S5进行循环拖拽,直到达到拖拽循环次数,拖拽点与目标点重合后得到最终拖拽后的克隆隐向量,舍弃原始的隐向量,仅由最终拖拽后的克隆隐向量通过变分自编码器的解码器部分进行图像重建,输出拖拽完成图像并通过交互界面展示给用户。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于潜在一致性模型的无需微调高效拖拽式编辑方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术