首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种结合边界分布与纠正的事件提名方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中山大学

摘要:本发明提供的一种结合边界分布与纠正的事件提名方法,通过构建起点分布网络、终点分布网络和边界循环修正网络形成事件提名网络;通过构建事件提名网络损失函数对事件提名网络进行训练更新;利用训练更新后的事件提名网络对视频事件进行提名预测;所述起点分布网络、终点分布网络用于事件提名预测;所述边界循环修正网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。本发明提供的一种结合边界分布与纠正的事件提名方法,结合了真实视频中的事件起止点分布规律产生拟合真实事件分布的事件提名,并利用循环修正网络对事件提名的边界进行修正,从而得到更加符合现实事件且使事件的边界更加精确的事件提名。

主权项:1.一种结合边界分布与纠正的事件提名方法,其特征在于:通过构建起点分布网络、终点分布网络和边界循环修正网络形成事件提名网络;通过构建事件提名网络损失函数对事件提名网络进行训练更新;利用训练更新后的事件提名网络对视频事件进行提名预测;所述起点分布网络、终点分布网络用于事件提名预测;所述边界循环修正网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正;所述起点分布网络、终点分布网络构建过程为:将现有数据集视频长度进行归一化,确定事件起止点在视频中的相对位置;统计数据集中所有事件起止点在视频中的相对位置,取视频中的所有事件起止点在视频时间线上的概率分布ws0,we0;ws0,we0分别表示事件的起点和终点概率分布,得到起点分布网络、终点分布网络;所述起点分布网络、终点分布网络进行事件提名预测的过程具体为:通过三维卷积网络获取样本视频的视频特征,基于起点分布网络和终点分布网络,将得到的视频特征利用循环神经网络进行计算,得到起点分布网络和终点分布网络中每一个时间点输出的视频特征;在起点分布网络和终点分布网络中的每一个时间点输出K个置信度,表示K个固定长度的事件提名的可能性,这K个事件提名的长度为:[t-k,t+1],k∈[0,K];其中t与k的值满足t≥k,t的值随着视频长度的变化而变化;置信度越高,是事件提名的可能性越大;所述起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,从而完成事件提名的预测。

全文数据:一种结合边界分布与纠正的事件提名方法技术领域本发明涉及计算机视觉技术领域,更具体的,涉及一种结合边界分布与纠正的事件提名方法。背景技术随着互联网及便携式设备的高速发展,拍摄视频变得更加的方便容易,大量的视频被上传到了互联网上,这些视频的内容,时间长短等都有较大的差异性。大多数基于视频的计算机视觉算法都是在长视频上进行一定的修剪之后再对修剪后的短视频进行分析处理,如动作识别。而对长视频的修剪带来了大量的人力成本和时间成本的消耗,为了满足现实生活的需要,对未修剪的长视频进行处理分析变得很有必要。密集视频描述[1]正是基于未修剪的长视频提出的一个新任务,目标是使用自然语言对视频中发生的多个事件分别进行描述。密集视频描述可以分为两个部分,一是对视频中的事件进行定位,找到视频中所有事件的起止时间,即提取视频中的事件提名;二是使用自然语言对定位出的事件进行描述。其潜在应用非常的广泛,如婴幼儿早期教育、盲人日常辅导、电影字幕、视频检索和分类等。鲁棒的密集视频描述依赖于高质量的事件提名,不仅要求产生的事件提名在时间尺度上能覆盖所有可能发生的事件的时间跨度,而且需要产生的事件提名的边界与视频中的真实事件一样。相较于目标检测等基于图像的任务,高质量的事件提名不仅需要提取视频中的对象信息,还需要对视频中对象在时间上的运动信息进行提取和分析从而得到相关的动态信息。实际生活中视频生成条件不受限制,视频中的多事件在时间上存在一定的重叠,且视频的拍摄角度、拍摄距离等存在一定的变化,这都给事件提名带来了较大的挑战。视频中的事件提名与图像中的目标检测有一定相似性,目前关于事件提名的许多研究工作都受到目标检测启发。不过在事件提名中,不仅需要关注视频的表观特征,还需要关注时序上的动态特征,且事件的时间跨度变化往往比较大。Shou等[2]将不同尺度的滑动窗口应用于视频特征序列,使用[3]提取窗口中的特征,进一步预测事件提名。但该方法只能得到有限个长度预定的事件提名,不能灵活适应事件的真实长度。另外,不同尺度的滑动窗口对同一帧的重复扫描也会带来冗余计算。Gao等[4]则进一步对基于滑动窗口的事件提名边界进行回归,以获得更为灵活而准确的提名边界。Chao等[5]将FasterR-CNN[6]框架拓展成双流网络结构应用在视频上,将膨胀卷积应用于时序以扩大感受野,从而得到时间跨度更大的事件提名。得益于循环神经网络对视频特征提取的记忆性,[7]将滑窗内的视频特征输入循环神经网络,以预测不同尺度的事件提名的起止时间及其置信度。但是滑动窗口通常会带来大量重复运算,[8]通过在循环神经网络的每一个节点预测多个不同尺度的事件提名,避免了在不同尺度上的重复计算。但是该方法预测的事件提名边界固定,且其边界的精度受限于特征提取跨度,难以准确拟合真实事件边界。发明内容本发明为克服上述现有的基于循环神经网络的事件提名方法提名边界固定,其边界的精度受限于特征提取跨度,存在难以拟合真实事件边界的技术缺陷,提供一种结合边界分布与纠正的事件提名方法。为解决上述技术问题,本发明的技术方案如下:一种结合边界分布与纠正的事件提名方法,通过构建起点分布网络、终点分布网络和边界循环修正网络形成事件提名网络;通过构建事件提名网络损失函数对事件提名网络进行训练更新;利用训练更新后的事件提名网络对视频事件进行提名预测;所述起点分布网络、终点分布网络用于事件提名预测;所述边界循环修正网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。其中,所述起点分布网络、终点分布网络构建过程为:将现有数据集视频长度进行归一化,确定事件起止点在视频中的相对位置;统计数据集中所有事件起止点在视频中的相对位置,取视频中的所有事件起止点在视频时间线上的概率分布ws0,we0;ws0,we0分别表示事件的起点和终点概率分布,得到起点分布网络、终点分布网络。其中,所述起点分布网络、终点分布网络进行事件提名预测的过程具体为:通过三维卷积网络获取样本视频的视频特征,基于起点分布网络和终点分布网络,将得到的视频特征利用循环神经网络进行计算,得到起点分布网络和终点分布网络中每一个时间点输出的视频特征;在起点分布网络和终点分布网络中的每一个时间点输出K个置信度,表示K个固定长度的事件提名的可能性,这K个事件提名的长度为:[t-k,t+1],k∈[0,K];其中t与k的值满足t≥k,t的值随着视频长度的变化而变化;置信度越高,该区间是事件提名的可能性越大;所述起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,从而完成事件提名的预测。其中,所述边界循环修正网络由两层循环神经网络构建而成,其中,第一层的循环神经网络用于根据样本视频的视频特征计算每一个时间点输出的视频特征;第二层的循环神经网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。其中,产生预测的事件提名的偏置信息,对事件提名边界进行修正过程具体为:根据预测的事件提名计算事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl,具体计算公式为:Δc=Gc-PcPc;Δl=logGlPl;其中:Gc表示真实的事件提名中心坐标,Pc表示预测的事件提名中心坐标;Gl表示真实的事件提名尺度大小,Pl表示预测的事件提名尺度大小;将事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl作为监督信号,根据监督信号利用L1范数对第二层循环神经网络进行训练,得到预测的事件提名的偏置信息,记为Δc'和Δl';通过偏置信息Δc'和Δl'对预测的事件提名边界进行修正,得到修正后的事件提名的中心位置Pc'和尺度大小Pl',具体为:Pc'=Pc1+Δ'c;根据修正后的事件提名的中心位置Pc'和尺度大小Pl'得到修正后的起止时间,具体为:其中,P′start表示修正后的事件提名起始时间,P′end表示修正后的事件提名终止时间,至此完成对预测的事件提名边界的修正。其中,所述事件提名网络损失函数由起点分布网络损失子函数、终点分布网络损失子函数和边界循环修正网络损失子函数加权叠加而成;其中所述起点分布网络损失子函数lossscs,t,X,ys具体为:所述终点分布网络损失子函数lossece,t,X,ye具体为:所述边界循环修正网络损失子函数lossregti具体为:其中,X表示整个数据集;为第t个时间点的第k个事件提名是否为真的监督信号,为该事件提名在起始分布网络和终止分布网络下的置信度;其中,K表示每一个时间点输出的事件提名个数,与置信度相同;Δck与Δlk分别为在视频第ti个时间点对第k个事件提名进行修正的监督信号;Δc'k与Δl'k则为对同一时间点对同一事件提名预测的偏置信息;因此,所述损失函数lossc,t,X,y具体为:lossc,t,x,y=α*lossscs,t,x,ys+β*lossece,t,x,ye+γ*lossregti;其中,α、β、γ为三个子损失函数的权重系数。其中,利用所述损失函数对事件提名网络中的所有的循环神经网络进行训练更新,从而完成事件提名网络的训练更新,得到训练更新后的事件提名网络。其中,利用训练更新后的事件提名网络对视频事件进行提名预测的具体过程为:S1:通过三维卷积网络获取样本视频的视频特征;S2:利用训练更新后的循环神经网络对本视频的视频特征进行计算,分别得到起点分布网络、终点分布网络和边界循环修正网络每一个时间点输出的视频特征;S3:分别在起点分布网络和终点分布网络中的每一个时间点输出多个置信度,并将起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,完成事件提名的预测;S4:边界循环修正网络产生预测的事件提名的偏置信息;S5:对事件的置信度从大到小进行排序,取前1000个事件提名并根据相应的偏置信息对其进行修正,得到最终预测的事件提名。与现有技术相比,本发明技术方案的有益效果是:本发明提供的一种结合边界分布与纠正的事件提名方法,结合了真实视频中的事件起止点分布规律产生拟合真实事件分布的事件提名,并利用循环修正网络对事件提名的边界进行修正,从而得到更加符合现实事件且使事件的边界更加精确的事件提名。附图说明图1为本发明流程示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。实施例1如图1所示,一种结合边界分布与纠正的事件提名方法,通过构建起点分布网络、终点分布网络和边界循环修正网络形成事件提名网络;通过构建事件提名网络损失函数对事件提名网络进行训练更新;利用训练更新后的事件提名网络对视频事件进行提名预测;所述起点分布网络、终点分布网络用于事件提名预测;所述边界循环修正网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。更具体的,所述起点分布网络、终点分布网络构建过程为:将现有数据集视频长度进行归一化,确定事件起止点在视频中的相对位置;统计数据集中所有事件起止点在视频中的相对位置,取视频中的所有事件起止点在视频时间线上的概率分布ws0,we0;ws0,we0分别表示事件的起点和终点概率分布,得到起点分布网络、终点分布网络。在具体实施过程中,在进行数据集的统计时,将与真实事件的时间交叉比tIOU大于某一阈值σ的事件提名划分为正样本,对所有正样本的起止点分布进行统计。更具体的,所述起点分布网络、终点分布网络进行事件提名预测的过程具体为:通过三维卷积网络获取样本视频的视频特征,基于起点分布网络和终点分布网络,将得到的视频特征利用循环神经网络进行计算,得到起点分布网络和终点分布网络中每一个时间点输出的视频特征;在起点分布网络和终点分布网络中的每一个时间点输出K个置信度,表示K个固定长度的事件提名的可能性,这K个事件提名的长度为:[t-k,t+1],k∈[0,K];其中t与k的值满足t≥k,t的值随着视频长度的变化而变化;置信度越高,该区间是事件提名的可能性越大;所述起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,从而完成事件提名的预测。更具体的,所述边界循环修正网络由两层循环神经网络构建而成,其中,第一层的循环神经网络用于根据样本视频的视频特征计算每一个时间点输出的视频特征;第二层的循环神经网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。更具体的,产生预测的事件提名的偏置信息,对事件提名边界进行修正过程具体为:根据预测的事件提名计算事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl,具体计算公式为:Δc=Gc-PcPc;Δl=logGlPl;其中:Gc表示真实的事件提名中心坐标,Pc表示预测的事件提名中心坐标;Gl表示真实的事件提名尺度大小,Pl表示预测的事件提名尺度大小;将事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl作为监督信号,根据监督信号利用L1范数对第二层循环神经网络进行训练,得到预测的事件提名的偏置信息,记为Δc'和Δl';通过偏置信息Δc'和Δl'对预测的事件提名边界进行修正,得到修正后的事件提名的中心位置Pc'和尺度大小Pl',具体为:Pc'=Pc1+Δ'c;根据修正后的事件提名的中心位置Pc'和尺度大小Pl'得到修正后的起止时间,具体为:其中,P′start表示修正后的事件提名起始时间,P′end表示修正后的事件提名终止时间,至此完成对预测的事件提名边界的修正。更具体的,所述事件提名网络损失函数由起点分布网络损失子函数、终点分布网络损失子函数和边界循环修正网络损失子函数加权叠加而成;其中所述起点分布网络损失子函数lossscs,t,X,ys具体为:所述终点分布网络损失子函数lossece,t,X,ye具体为:所述边界循环修正网络损失子函数lossregti具体为:其中,X表示整个数据集;为第t个时间点的第k个事件提名是否为真的监督信号,为该事件提名在起始分布网络和终止分布网络下的置信度;其中,K表示每一个时间点输出的事件提名个数,与置信度相同;Δck与Δlk分别为在视频第ti个时间点对第k个事件提名进行修正的监督信号;Δc'k与Δl'k则为对同一时间点对同一事件提名预测的偏置信息;因此,所述损失函数lossc,t,X,y具体为:lossc,t,x,y=α*lossscs,t,x,ys+P*lossece,t,x,ye+γ*lossregti;其中,α、β、γ为三个子损失函数的权重系数。更具体的,利用所述损失函数对事件提名网络中的所有的循环神经网络进行训练更新,从而完成事件提名网络的训练更新,得到训练更新后的事件提名网络。更具体的,利用训练更新后的事件提名网络对视频事件进行提名预测的具体过程为:S1:通过三维卷积网络获取样本视频的视频特征;S2:利用训练更新后的循环神经网络对本视频的视频特征进行计算,分别得到起点分布网络、终点分布网络和边界循环修正网络每一个时间点输出的视频特征;S3:分别在起点分布网络和终点分布网络中的每一个时间点输出多个置信度,并将起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,完成事件提名的预测;S4:边界循环修正网络产生预测的事件提名的偏置信息;S5:对事件的置信度从大到小进行排序,取前1000个事件提名并根据相应的偏置信息对其进行修正,得到最终预测的事件提名。实施例2在实施例1的基础上,更具体的,在ActivityNet上进行训练与验证,ActivityNet包含了20000个未修剪视频,共由849个小时,并且有约10万条描述语句的标记信息,在该数据集中,每一个视频都包含有若干个事件及对事件的描述语句,且同一视频中时间的起止时间及持续时间都不相同。ActivityNet包含三个部分:训练集、验证集以及测试集,分别有10024、4926、5044个视频,实施例主要在训练集和验证集上进行实验。使用三维卷积网络[9]提取特征时,每64帧提取出一个视频特征,特征维度使用主成分分析法压缩到500。使用的循环神经网络为长短期记忆网络LSTM,维度为512,模型中的K设置为256。在产生句子的语言模型中,每一句话的单词上限设置为32,且在建立词库时删掉了出现次数少于3的单词。先将事件提名网络训练至稳定后,再联合语言模型进行训练,学习率均设置为5e-5。在具体实施过程中,对事件提名的质量进行评估时,通常使用两个使用两个指标:召回率、准确率。召回率评估所预测的事件提名中覆盖了多少真实的事件,准确率对所预测的事件提名中有多少是正确的进行评估。此外,还有一个指标用于综合的对事件提名进行评估,即f1分数,该指标同时兼顾了准确率和召回率,通过召回率及准确率进行计算得到,计算方法如下:f1=2*准确率*召回率准确率+召回率;在ActivityNet上用本发明提出的结合边界分布与纠正的事件提名方法,与现有方法的对比如表1所示:表1方法召回率@1000准确率@1000f1分数@1000SST[5]0.7160.5330.571起止点建模0.7310.5300.573边界回归0.7040.5610.590起止点分布+边界点回归0.7160.5600.592如表1所示,@1000表示置信度排名前1000的事件提名;将本发明所用方法与现有方法进行对比,SST[13]为本发明所用方法的基础,也是基于循环神经网络对事件提名进行预测。但是在SST中,没有对事件提名的起止点分布等数据进行处理,且其预测的事件提名边界固定。因此,通过对事件起止点进行统计,召回率有了明显的提升,且在结合对事件提名边界进行回归之后,召回率基本保持不变的情况下,准确率和f1分数都有较大的提升。在具体实施过程中,对事件提名用于密集视频描述的表现进行评估时,主要的指标有BLEU-1,BLEU-2,BLEU-3,BLEU-4,Meteor,Rouge-L,CIDEr-D,用以评估事件提名网络产生的描述语句与真实描述语句之间的相似度。在上述指标中,Meteor由于其度量结果与人工判断的结果更相似,因此主要看重事件提名网络在这一指标上的表现。如表2所示,在密集视频描述任务上与现有的方法进行对比,本发明所述方法在大部分指标上都比现有方法的表现要好,特别是在Meteor指标上,表明了事件提名网络的有效性。表2ActivityNetCaptionvalidation实验结果显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。[1]R.Krishna,K.Hata,F.Ren,L.Fei-Fei,andJ.C.Niebles,“Dense-captioningeventsinvideos,”inProc.IEEEInternationalConferenceonComputerVision,2017,pp.706-715.[2]Z.Shou,D.Wang,andS.Chang,“Temporalactionlocalizationinuntrimmedvideosviamulti-stageCNNs,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2016,pp.1049-1058.[3]S.Ji,W.Xu,M.Yang,andK.Yu,“3Dconvolutionalneuralnetworksforhumanactionrecognition,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.35,no.1,pp.221-231,2013.[4]J.Gao,Z.Yang,C.Sun,K.Chen,andR.Nevatia,“TURNTAP:Temporalunitregressionnetworkfortemporalactionproposals,”inProc.IEEEInternationalConferenceonComputerVision,2017,pp.3648-3656.[5]Y.Chao,S.Vijayanarasimhan,B.Seybold,D.A.Ross,J.Deng,andR.Sukthankar,“RethinkingthefasterR-CNNarchitecturefortemporalactionlocalization,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2018,pp.1130-1139.[6]S.Ren,K.He,R.Girshick,andJ.Sun,“FasterR-CNN:Towardsreal-timeobjectdetectionwithregionproposalnetworks,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.39,no.6,pp.1137-1149,2017.[7]V.Escorcia,F.Caba,J.C.Niebles,andB.Ghanem,“Daps:Deepactionproposalsforactionunderstanding,”inProc.EuropeanConferenceonComputerVision,2016,pp.768–784.[8]S.Buch,V.Escorcia,C.Shen,B.Ghanem,andJ.C.Niebles,“SST:Single-streamtemporalactionproposals,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2017,pp.6373-6382.[9]S.Ji,W.Xu,M.Yang,andK.Yu,“3Dconvolutionalneuralnetworksforhumanactionrecognition,”IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.35,no.1,pp.221-231,2013.[10]R.Krishna,K.Hata,F.Ren,L.Fei-Fei,andJ.C.Niebles,“Dense-captioningeventsinvideos,”2017IEEEInternationalConferenceonComputerVisionICCV,pp.706–715,2017.[11]Y.Li,T.Yao,Y.Pan,H.Chao,andT.Mei,“Jointlylocalizinganddescribingeventsfordensevideocaptioning,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2018,pp.7492-7500.[12]J.Wang,W.Jiang,L.Ma,W.Liu,andY.Xu,“Bidirectionalattentivefusionwithcontextgatingfordensevideocaptioning,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2018,pp.7190-7198.[13]S.Buch,V.Escorcia,C.Shen,B.Ghanem,andJ.C.Niebles,“SST:Single-streamtemporalactionproposals,”inProc.IEEEConferenceonComputerVisionandPatternRecognition,2017,pp.6373-6382.

权利要求:1.一种结合边界分布与纠正的事件提名方法,其特征在于:通过构建起点分布网络、终点分布网络和边界循环修正网络形成事件提名网络;通过构建事件提名网络损失函数对事件提名网络进行训练更新;利用训练更新后的事件提名网络对视频事件进行提名预测;所述起点分布网络、终点分布网络用于事件提名预测;所述边界循环修正网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。2.根据权利要求1所述的一种结合边界分布与纠正的事件提名方法,其特征在于:所述起点分布网络、终点分布网络构建过程为:将现有数据集视频长度进行归一化,确定事件起止点在视频中的相对位置;统计数据集中所有事件起止点在视频中的相对位置,取视频中的所有事件起止点在视频时间线上的概率分布ws0,we0;ws0,we0分别表示事件的起点和终点概率分布,得到起点分布网络、终点分布网络。3.根据权利要求2所述的一种结合边界分布与纠正的事件提名方法,其特征在于,所述起点分布网络、终点分布网络进行事件提名预测的过程具体为:通过三维卷积网络获取样本视频的视频特征,基于起点分布网络和终点分布网络,将得到的视频特征利用循环神经网络进行计算,得到起点分布网络和终点分布网络中每一个时间点输出的视频特征;在起点分布网络和终点分布网络中的每一个时间点输出K个置信度,表示K个固定长度的事件提名的可能性,这K个事件提名的长度为:[t-k,t+1],k∈[0,K];其中t与k的值满足t≥k,t的值随着视频长度的变化而变化;置信度越高,该区间是事件提名的可能性越大;所述起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,从而完成事件提名的预测。4.根据权利要求3所述的一种结合边界分布与纠正的事件提名方法,其特征在于,所述边界循环修正网络由两层循环神经网络构建而成,其中,第一层的循环神经网络用于根据样本视频的视频特征计算每一个时间点输出的视频特征;第二层的循环神经网络用于产生预测的事件提名的偏置信息,对事件提名边界进行修正。5.根据权利要求4所述的一种结合边界分布与纠正的事件提名方法,其特征在于,产生预测的事件提名的偏置信息,对事件提名边界进行修正过程具体为:根据预测的事件提名计算事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl,具体计算公式为:Δc=Gc-PcPc;Δl=logGlPl;其中:Gc表示真实的事件提名中心坐标,Pc表示预测的事件提名中心坐标;Gl表示真实的事件提名尺度大小,Pl表示预测的事件提名尺度大小;将事件提名的中心坐标偏移量Δc和事件提名的尺度变化因子Δl作为监督信号,根据监督信号利用L1范数对第二层循环神经网络进行训练,得到预测的事件提名的偏置信息,记为Δc′和Δl′;通过偏置信息Δc′和Δl′对预测的事件提名边界进行修正,得到修正后的事件提名的中心位置P′c和尺度大小P′l,具体为:P′c=Pc1+Δ′c;根据修正后的事件提名的中心位置P′c和尺度大小P′l得到修正后的起止时间,具体为:其中,P′start表示修正后的事件提名起始时间,P′end表示修正后的事件提名终止时间,至此完成对预测的事件提名边界的修正。6.根据权利要求5所述的一种结合边界分布与纠正的事件提名方法,其特征在于,所述事件提名网络损失函数由起点分布网络损失子函数、终点分布网络损失子函数和边界循环修正网络损失子函数加权叠加而成;其中所述起点分布网络损失子函数lossscs,t,X,ys具体为:所述终点分布网络损失子函数lossece,t,X,ye具体为:所述边界循环修正网络损失子函数lossregti具体为:其中,X表示整个数据集;为第t个时间点的第k个事件提名是否为真的监督信号,为该事件提名在起始分布网络和终止分布网络下的置信度;其中,K表示每一个时间点输出的事件提名个数,与置信度相同;Δck与Δlk分别为在视频第ti个时间点对第k个事件提名进行修正的监督信号;Δc′k与Δl′k则为对同一时间点对同一事件提名预测的偏置信息;因此,所述损失函数lossc,t,X,y具体为:lossc,t,X,y=α*lossscs,t,X,ys+β*lossece,t,X,ye+γ*lossregti;其中,α、β、γ为三个子损失函数的权重系数。7.根据权利要求6所述的一种结合边界分布与纠正的事件提名方法,其特征在于,利用所述损失函数对事件提名网络中的所有的循环神经网络进行训练更新,从而完成事件提名网络的训练更新,得到训练更新后的事件提名网络。8.根据权利要求7所述的一种结合边界分布与纠正的事件提名方法,其特征在于,利用训练更新后的事件提名网络对视频事件进行提名预测的具体过程为:S1:通过三维卷积网络获取样本视频的视频特征;S2:利用训练更新后的循环神经网络对本视频的视频特征进行计算,分别得到起点分布网络、终点分布网络和边界循环修正网络每一个时间点输出的视频特征;S3:分别在起点分布网络和终点分布网络中的每一个时间点输出多个置信度,并将起点分布网络和终点分布网络中相对应的事件提名的置信度之和作为最后该事件的置信度,完成事件提名的预测;S4:边界循环修正网络产生预测的事件提名的偏置信息;S5:对事件的置信度从大到小进行排序,取前1000个事件提名并根据相应的偏置信息对其进行修正,得到最终预测的事件提名。

百度查询: 中山大学 一种结合边界分布与纠正的事件提名方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。