买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于时序场景创建器的自监督视频场景边界检测方法,该方法通过分别从不同伪场景中选取视频片段,拼接两个片段合成一个语义转变点,作为场景伪边界。为了增强合成场景边界的多样性,本发明在涉及的视频片段之间进行镜头交换。除了伪边界之外,本发明还通过来自同一伪场景内部的相邻镜头或者重复的伪场景末尾的镜头提供最有可能的非边界场景。本发明有效地为视频场景分割自监督预训练提供了高质量的伪标签数据,显著地提高了视频场景分割模型的准确性。
主权项:1.一种基于时序场景创建器的自监督视频场景边界检测方法,其特征在于:包括如下依次执行的步骤:步骤S1:镜头序列的提取:获取一段输入视频,获取其中的镜头,形成镜头序列S=[s1,s2,…,st],其中s1,s2,st分别为第一个镜头,第二个镜头和第t个镜头,从镜头中进行关键帧的采样;步骤S2:构建时序边界创建器网络模型TSC,TSC包括并列的场景边界生成模块SBG和非场景边界生成模块NSBG;SBG模块用于生成场景伪边界以及增强边界;NSBG模块用于生成非场景边界;步骤S2-1:使用视觉编码器从si对应的关键帧中提取特征,并将提取的特征作为该镜头的特征,所有镜头的特征构建镜头语义特征序列X=[x1,x2,…,xt],其中x1,x2,xt分别为镜头s1,s2,st的镜头特征,t为镜头与镜头语义特征序列的长度;对提取的X应用无监督时间序列分割,生成M个连续且不重叠的视频片段,这些视频片段形成伪场景集P={pi|X=∪i∈Mpi},其中pi是第i个伪场景,一个伪场景pi对应一个视频片段;步骤S2-2:对视频片段随机通过SBG或NSBG进行处理得到若干有标签的BA和有标签的N。在SBG中,使用滑动窗口z在伪场景中采样得到一组长度为k的连续镜头片段BL,从BL不在的伪场景中采样长度为k的镜头片段BR,并且BL和BR所在伪场景不相交,且BL可能来自多个伪场景,将BL和BR拼接在一起,得到一组长度为2k的合成镜头序列B,BL和BR拼接之处的镜头则为合成视频场景边界,根据指定的数量和概率对BL和BR中的镜头进行随机交换,得到边界增强后的场景边界镜头序列BA;BL和BR拼接之处的镜头打上边界的标签。在NSBG中,在一个伪场景中使用滑动窗口采样长度为k的连续镜头NL,在NL后继续连续采样长度为k的镜头序列NR,拼接NL和NR得到非场景边界镜头序列N。NL和NR拼接之处的镜头打上非边界的标签。步骤S3:构建和训练边界检测模型,所述边界检测模型包括顺序连接的上下文编码器和场景边界分类器,若干有标签的BA和有标签的N构成训练集,其中一个BA和一个B均为一个训练样本。步骤S3-1:使用训练集中的训练样本对边界检测模型进行预训练得到次优边界检测模型;将训练样本输入边界检测模型,输出为每个训练样本的预测标签,利用二元交叉熵计算训练损失Lp,如下公式所示: 其中fs·是场景边界分类器,是BA经过上下文编码器编码后对应的训练样本,是N经过上下文编码器编码后对应的训练样本;根据训练损失不断更新边界检测模型的参数,直至达到最大训练次数或损失不再下降训练完成得到次优边界检测模型。步骤S3-2:使用训练集中的训练样本对边界检测模型进行微调得到次优边界检测模型利用训练样本对训练后的TSC进行微调,利用如下公式计算微调阶段的微调损失Lf: 其中fb·是次优边界检测模型中的场景边界分类器,该场景边界分类器需从头训练,yi是训练样本的真实标签,根据损失不断更新次优边界检测模型的参数,直至达到最大微调次数或微调损失不再下降微调完成得到最优边界检测模型。步骤S4:将待检测片段通过步骤S1获取镜头序列S',将S'输入步骤S21得到特征序列X',将X'输入最优边界检测模型,输出为待检测视频片段的中间镜头是否为场景边界的标签。
全文数据:
权利要求:
百度查询: 重庆大学 一种基于时序场景创建器的自监督视频场景边界检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。