华南理工大学吴庆耀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利可交互的个性化视频可控生成方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119697440B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411577358.0,技术领域涉及:H04N21/472;该发明授权可交互的个性化视频可控生成方法、装置、设备及介质是由吴庆耀;潘锡英设计研发完成,并于2024-11-06向国家知识产权局提交的专利申请。
本可交互的个性化视频可控生成方法、装置、设备及介质在说明书摘要公布了:本发明公开了一种可交互的个性化视频可控生成方法、装置、设备及介质,属于视频生成技术领域。其中方法包括:收集个性化图像作为源图像;将获得的源图像输入二维图像外观更新器进行微调,得到文本适配后的图像;从文本适配后的图像中复制多帧图像,将复制的多帧图像转换为文生视频的初始视频帧;基于初始视频帧,将文本适配后的图像和文本,作为预先训练的视频扩散模型的输入,生成个性化视频。本发明通过二维图像外观更新器将文本和基于图像条件的视频生成中的二维和时间信息分离出来,以对齐二维文本和输入图像,增强了已有的文本和图像到视频的扩散模型的能力。
本发明授权可交互的个性化视频可控生成方法、装置、设备及介质在权利要求书中公布了:1.一种可交互的个性化视频可控生成方法,其特征在于,包括以下步骤: 收集个性化图像作为源图像; 将获得的源图像输入二维图像外观更新器进行微调,得到文本适配后的图像; 从文本适配后的图像中复制多帧图像,将复制的多帧图像转换为文生视频的初始视频帧; 基于初始视频帧,将文本适配后的图像和文本输入预训练的视频扩散模型,通过Temporal-SDEdit过程生成个性化视频,包括: 设定帧数,对文本适配的图像进行次复制,以产生视频扩散模型的初始视频帧; 对维随机高斯噪声进行采样,并将噪声和利用扩散模型的调度器进行合并; 将合并后带噪声的视频帧注入到中间扩散步骤中,称为劫持步数; 针对不同的劫持步数,生成不同结果的视频,获取效果比较好的劫持区间; 根据劫持区间生成的视频进行过滤,获取外观和运动都比较满意的视频,作为最终的个性化视频; 所述针对不同的劫持步数,生成不同结果的视频,获取效果比较好的劫持区间,包括: 对不同的劫持步数设定范围,从初始的扩散步骤开始,逐步调节并记录每次生成的结果; 在不同劫持步数下生成多个视频样本,对比每个视频样本的外观和运动效果; 根据预设的视觉和运动评价指标筛选出效果较佳的劫持区间; 通过优化算法以锁定最佳劫持区间,确保生成的视频达到预期的个性化效果; 所述根据劫持区间生成的视频进行过滤,获取外观和运动都比较满意的视频,作为最终的个性化视频,包括: 将基于最佳劫持区间生成的视频样本,根据外观和运动指标对生成的视频样本进行多维度筛选,排除不符合用户个性化需求的视频; 保留符合外观和运动要求的样本作为最终输出视频,以确保视频内容个性化与视觉效果的高度一致性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励