Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

无监督视频分割方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:一种无监督视频分割方法,属于视频分割技术领域。首先,生成目标语义向量。其次,对生成的目标语义向量进行在线学习。再次,设计一个残差模块来修正并突出可以表示单个目标的语义向量,提升目标定位和分割的精度。最后,生成由边缘提炼引导的细节提取及视频帧实例分割掩码,即通过逐步的边缘提取并对边缘监督来增强细节并优化视频分割结果。本发明能够通过同时在时空域挖掘同一视频序列中所有视频帧中目标和背景的语义信息来进行目标的定位,更好地处理外观相似目标的区分以及复杂背景中目标的检测,通过对基底特征边缘的强化来提高目标分割的精度。同时,也能够很好的扩展应用于图像和视频处理的其他领域中。

主权项:1.一种无监督视频分割方法,其特征在于,包括以下步骤:第一步,生成目标语义向量1.1首先输入给定的视频序列中的一帧视频帧I,提取物体特征得到一系列金字塔特征图其中Hi、Wi和C分别表示第i层金字塔特征图的宽、高和通道数;1.2每个金字塔特征图Pi分别通过一系列的卷积层及上采样到与最浅层相同尺寸并求和得到融合特征: 其中,Funif为融合特征,ConvUpi表示第i层金字塔特征图经过多组卷积层和上采样;1.3对步骤1.2得到的融合特征进行空间、通道上的增强和语义信息的挖掘,为后续的语义向量在线学习提供引导;利用融合特征Funif,采用公式2计算一个注意力图W:W=SigConv1×1Funif2其中,Conv1×1表示一层卷积层,Sig表示Sigmoid函数;融合特征在注意力图的引导下经过如下的增强:Fch=Funif⊙SigChavgFunif⊙W3Fatt=Conv3×3ConcatFch,W4式3输出Fch表示通道增强特征,其中Chavg表示通道平均操作;式4输出Fatt表示空间增强特征,其中Conv3×3表示卷积层,Concat表示通道拼接;1.4最后空间和通道增强特征Fatt经过四个相同组合结构输出语义向量特征FIE;语义向量特征FIE中每一个像素点是对视频帧中一个目标或者背景的粗略语义表达;第二步,语义向量的在线学习利用每个目标语义向量在时域上的传播来引导目标定位模糊视频帧中语义向量的学习,更好的定位目标;同时为了防止过去信息的错误积累,还融合自身增强语义向量特征来权衡时域的传播正确性;对于每个视频序列第一帧无时域传播的情况,直接进入第三步,生成语义掩码;在随后处理视频序列后续帧时,利用之前生成的语义掩码;具体如下:2.1对于每一帧视频帧t,首先将位置信息融合进语义向量特征FIE;采用归一化坐标coord∈[-1,1]来代表位置信息,分别与当前T时刻视频帧的语义特征和过去视频帧语义向量特征进行通道上的拼接,语义向量在线学习期间通过位置信息更好地区分相邻的实例;对于过去视频帧,再拼接上之前已经生成的语义掩码;对于过去视频帧,采用如下方式生成自注意语义特征 其中,At和Mt分别表示过去视频帧的语义对齐特征和自注意力图;Ot表示过去视频帧预测的语义掩码;表示过去视频帧过滤后的语义向量特征;采用公式5、6描述的自注意机制用来过滤过去视频帧的误导性信息;2.2为充分利用历史信息,每处理一帧后,全部过去时刻0≤t<T的视频帧过滤后的语义向量特征将动态地更新成一个针对当前时刻T的固定大小的记忆池MemT: 其中,T表示当前时刻;对于当前视频帧,有式: 其中,AT和MT分别表示当前视频帧的语义对齐特征和自注意力图;当给定记忆池MemT和当前视频帧的对齐特征AT后,通过下式金字塔融合模块ASPP将每一个位置的语义向量和相邻的一系列不同距离的语义向量进行信息的融合和匹配,输出匹配后的时域传播语义特征 另外,对当前视频帧语义向量特征加入自注意力机制得到自增强语义向量特征: 2.3为防止在时域传播时出现错误积累,通过拼接和卷积层融合时域传播语义特征和自增强语义向量特征将时域传播后的语义信息融合到当前视频帧突出自身目标的语义信息中: 第三步,语义向量的独立性增强设计一个残差模块来修正并突出可以表示单个目标的语义向量,提升目标定位和分割的精度;该残差模块的实现过程如下: 公式12中的金字塔融合模块ASPP可以建立中每个语义向量和周围不同距离的语义向量的关系,输出的语义向量特征包含着每个语义向量的冗余程度信息,经过公式13得到的权重图α表示每个位置点所对应的语义向量冗余程度,通过公式14能够减弱冗余多的语义向量,突出单个目标的语义向量得到过滤后的语义向量特征最后,预测视频帧中目标位置,得到当前T时刻语义掩码,如公式15所示: 输出预测OT是一个权重图,权重越高表示该位置表示单个目标的概率越高;第四步,生成由边缘提炼引导的细节提取及视频帧实例分割掩码第三步通过语义向量特征生成的语义掩码表示每个位置单个目标的概率,采用基底特征和动态卷积核的卷积输出生成每个位置对应的目标分割掩码,所述动态卷积核K由融合特征Funif经过四个相同组合结构生成,所述通过对Funif进行增强后生成;首先对融合特征Funif进行降维得到降维特征Frdu,然后通过公式16、17逐步的提取边缘信息:Bstr=Conv3×3Deconv3×3Frdu16Bsub=Conv3×3Deconv3×3Bstr17公中,Deconv3×3表示反卷积;Bstr表示粗略细节特征,征Bsub表示细节特征;上述两种细节特征和降维特征通过公式18融合后得到边缘特征Fbdry,Fbdry在边缘掩码真值的监督下,学习融合特征Funif的边缘信息;Fbdry=Conv3×3Bstr+Conv1×1ConcatBsub,Frdu18然后将边缘特征Fbdry和融合特征Funif结合来增强融合特征细节并生成基底特征 其中,ε表示一组3×3卷积,ReLU函数和1×1卷积; 与动态卷积核K卷积后得到对应OT每一个位置的分割预测: 最后分割预测m和语义掩码OT,输出最后的分割结果。

全文数据:

权利要求:

百度查询: 大连理工大学 无监督视频分割方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术