湖南马栏山视频先进技术研究院有限公司邓正秋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南马栏山视频先进技术研究院有限公司申请的专利基于深度信息与时频优化的轨迹控制视频生成方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120238709B 。
龙图腾网通过国家知识产权局官网在2025-09-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510387765.3,技术领域涉及:H04N21/81;该发明授权基于深度信息与时频优化的轨迹控制视频生成方法及装置是由邓正秋;黎维设计研发完成,并于2025-03-31向国家知识产权局提交的专利申请。
本基于深度信息与时频优化的轨迹控制视频生成方法及装置在说明书摘要公布了:本发明提供了基于深度信息与时频优化的轨迹控制视频生成方法及装置,涉及图像处理技术领域,本发明通过多实体分割、深度估计和时频分解,结合用户指令优化3D轨迹,并利用多尺度融合网络生成控制信号;最后,将这些信号与原始图像输入改进的StableVideoDiffusion模型生成视频潜在表示序列,解决了现有视频生成方法对动态实体运动控制精度不足、跨帧一致性差的问题,通过深度信息引导的3D轨迹建模与时频联合优化机制,显著提升生成视频的运动平滑性、空间真实性及时频稳定性。
本发明授权基于深度信息与时频优化的轨迹控制视频生成方法及装置在权利要求书中公布了:1.基于深度信息与时频优化的轨迹控制视频生成方法,其特征在于,包括以下步骤: S1、对原始图像I进行多实体实例分割生成多实体实例遮罩集合M,并根据实体区域面积动态确定控制点数量通过加权聚类提取覆盖关键运动区域的多尺度控制点集合C;所述多尺度控制点集合C为2D控制点集合; S2、基于多尺度控制点集合C通过深度估计网络提取图像深度图D,将多尺度控制点集合C结合深度值映射为全局3D轨迹集合T; S3、采用离散小波变换对全局3D轨迹集合T进行时频分解得到低频近似分量与高频细节分量,结合用户方向指令U与自适应方向增益调整高频细节分量以优化全局3D轨迹集合T得到优化3D轨迹集合T′; S4、将多实体实例遮罩集合M、全局3D轨迹集合T及优化3D轨迹集合T′输入多尺度融合网络生成实体级光流场Oi与多尺度特征并通过门控跨尺度注意力机制融合实体级光流场Oi与多尺度特征生成多尺度控制信号S; S5、将多尺度控制信号S与原始图像I输入改进的StableVideoDiffusion模型,所述改进的StableVideoDiffusion模型的隐空间扩散过程中通过退火采样与跨模态注意力生成视频潜在表示序列 步骤S5具体包括以下步骤: S51、将多尺度控制信号与原始图像输入至基于StableVideoDiffusion框架的改进模型,首先通过3D-VAE编码器将输入图像I压缩为潜在表示同时将多尺度控制信号S通过时空卷积网络映射为条件嵌入在扩散去噪过程中,隐变量zt通过改进的UNet架构迭代更新,其时间依赖的残差块计算形式为: òθzt,t,c=Conv3DAdaGNzt,t+CrossAttnzt,c, 其中AdaGNzt,t为注入时间步t的嵌入向量,表示自适应组归一化层;CrossAttnzt,c为跨模态注意力模块,用于计算zt的c交互权重并加权融合为条件特征;h=H8;w=W8;d=4;t∈[1,T];òθzt,t,c表示去噪网络的输出;Conv3D为三维卷积层,在空间维度与时序维度上联合建模运动连续性;H为图像高度,W为图像宽度; S52、引入退火采样策略:在去噪步t∈[Tc,Tend]时采用完整条件嵌入c,而在t∈[1,Tc]时逐步衰减多尺度控制信号S的权重γt=min1,Tc-tTc-1,以消除过度约束导致的伪影;最终通过频域稳定模块对潜在表示进行后处理输出时序平滑的视频潜在表示序列 为可学习频域滤波器;Tend表示退火采样策略的终止时间步;Tc表示退火采样策略的起始时间步。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南马栏山视频先进技术研究院有限公司,其通讯地址为:410000 湖南省长沙市开福区月湖街道滨河北路280兴旺科技园A栋5楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。