买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏大学
摘要:本发明涉及计算机视觉领域,具体涉及一种基于上下文信息与提议分类解耦的时序动作检测方法。该方法在时序提议生成的基础上,提出了时序上下文信息融合模块,对每个时序提议进行扩展,并融合上下文信息,使得时序提议尽可能多的包含丰富的动作上下文信息;同时对动作分类网络进行解耦,构建动作分类分支和时序边界回归分支,分别侧重于分类任务和时序边界回归任务,以优化每个子任务的性能;通过单独的时序边界回归分支对时序边界进行调整,并将两个分支得到的分类分数进行融合,使之能够更为准确的对视频中的动作进行分类和定位。本发明提高了时序动作检测模型对视频中动作分类和定位的准确性。
主权项:1.一种基于上下文信息与提议分类解耦的时序动作检测方法,其特征在于,包括如下步骤:1输入视频帧序列其中,n为帧序号,T是视频总帧数,vn为视频帧序列的第n帧,每个视频帧序列V有X个窗口位置;2通过3DConvNet提取视频帧序列的时序特征fs=Esi;3通过时序提议生成网络时序提议集合P;4通过扩展时序提议,连接时序上下文,融合时序上下文信息,计算新的时序提议特征fp;5构建动作分类分支和时序边界回归分支,并利用两个分支的动作分类分数进行互补融合,计算最终的动作类别概率Ps;6通过与动作片段的真值匹配,给时序提议分配动作标签lp,输出最终的时序动作检测结果;所述步骤4中计算新的时序提议特征fp,包括如下步骤:4.1输入时序提议集合P;4.2对时序提议集合P中的每个提议片段进行扩展,向前向后分别扩展为原提议片段长度的一半;每个片段的中心位置为c,持续时间为l,即提议前后的上下文表示为其中vi表示片段中的第i帧,这使提议能够涵盖所有可能包含动作的时序片段;4.3通过平均池化层D从时序特征fs中分离出初始提议特征和上下文特征;4.4将提议特征和时序上下文特征进行矢量连接,使得时序上下文信息与初始提议信息融合;4.5计算新的时序提议特征fp,计算公式如下: 其中,代表矢量连接,D由平均池化层进行;所述步骤5中计算最终的动作类别概率Ps,包括如下步骤:5.1构建动作分类分支,所述动作分类分支采用常规的分类网络,包括两个全连接层,第一个全连接层处理输入的时序提议特征fp,由ReLU激活函数激活,第二个全连接层为输出层,输出动作分类分数其中,C为动作类数量,c=0时为背景类分数,ac表示第c个动作类别的分数;经过softmax函数输出动作类别概率其中,C为动作类数量,i=0时为背景类分数,表示分类分支第i个动作类别的概率;同时全连接层直接输出预测得到的时序偏移tcls=Δc,Δl,其中Δc和Δl分别代表提议中心位置的偏移和长度偏移;5.2构建时序边界回归分支,采用1×1卷积核的时序卷积层预测时序偏移ri=b′i,e′i,即预测在时序位置xi的时序特征fi到真实动作段开始、结束位置的距离;相应位置的真实偏移量计算如下:bi=xi-b*lp,ei=e*-xilp其中,b*和e*分别表示真实动作段的开始和结束节点,lp表示时序提议的长度;时序边界回归分支采用1×1卷积核的时序卷积层输出时序提议的分类分数其中,C为动作类数量,c=0时为背景类分数,rc表示第c个动作类别的分数;利用softmax函数得到动作类别概率其中,C为动作类数量,i=0时为背景类分数,表示回归分支第i个动作类别的概率;5.3将两个分支得到的分类分数进行融合,计算最终的动作类别概率Ps,计算公式如下:
全文数据:
权利要求:
百度查询: 江苏大学 基于上下文信息与提议分类解耦的时序动作检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。