首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

空时多尺度交互的视频摘要生成方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明公开了空时多尺度交互的视频摘要生成方法及系统,涉及图像处理技术领域。本发明包括:接收待处理视频构成数据集,对数据集进行改造,为数据集中每个视频添加类别,并将视频按照类别划分训练集和测试集,要求测试集中的类别不能在训练集中出现;根据划分的训练集和测试集,分别为其查询集选取支持集视频。本发明能够将传统视频摘要生成技术改造成面向少样本场景的视频摘要生成技术,模型仅需要少量的样本即可快速掌握同类视频的摘要生成所需关注的重点,对于训练中没有见过的类别可以快速泛化。并且利用双分支结构获取空时特征,并结合多尺度交互方式充分利用空时特征,为生成摘要提供多尺度的信息。

主权项:1.空时多尺度交互的视频摘要生成方法,其特征在于,具体包括以下步骤:接收待处理视频构成数据集,对数据集进行改造,为数据集中每个视频添加类别,并将视频按照类别划分训练集和测试集,要求测试集中的类别不能在训练集中出现;根据划分的训练集和测试集,分别为其查询集选取支持集视频;根据GroundTruth为选取的支持集视频生成摘要,支持集视频与支持集摘要共同组成支持集;将获取的查询集、支持集和支持集摘要输入到GoogleNet网络中获取第五个池化层的特征作为视频帧级特征,并作为空时多尺度交互模型的输入;将获取的视频帧级特征输入时域多尺度模块中的注意力网络,计算得到单尺度时序特征;将获取的支持集视频帧级特征和支持集摘要特征做矩阵乘法,获得类别相似性特征,输入到时域多尺度模块中;将获得的单尺度时序特征和类别相似性特征输入时序多尺度交互组件,得到时域多尺度融合特征;将获得的查询集特征、支持集特征和支持集摘要特征输入到空域多尺度模块中,并将特征向量分别均分为相同大小的片段,并为每个片段添加位置嵌入,利用一个全连接层对视频特征和位置嵌入进行融合;将融合后的特征进行重组,将等长的向量拼接成方阵,得到重组后的查询集视觉特征、支持集视觉特征和支持集摘要特征;将重组的查询集视觉特征、支持集视觉特征和支持集摘要特征输入到空间多尺度交互组件,得到空域多尺度融合特征;将重组的查询集特征和支持集特征拉伸恢复到原有的维度,输入到重建模块,对查询集特征和支持集特征进行重建,利用循环一致性损失对重建特征和原始视觉特征做约束,间接保证摘要生成的质量;将得到的时域多尺度融合特征和空域多尺度融合特征输入到融合模块,进行特征融合,并预测最终的摘要生成;关于计算得到单尺度时序特征,计算过程如下: 其中,的,分别表示注意力机制中键、查询、值和线性输出层的可学习参数;表示的是查询集视频、支持集视频和支持集摘要的输入,表示的是这三者经过注意力网络提取了时序信息的单尺度特征,即查询特征、支持特征、支持摘要特征;关于单尺度时序特征和类别相似性特征输入时序多尺度交互组件,得到时域多尺度融合特征,具体如下:(1)将获得的单尺度时序特征和类别特征利用自适应平均池化操作生成多个尺度的特征;(2)将对应尺度的四个特征拼接在一起;(3)利用插值操作将不同尺度的拼接特征统一到相同的维度;(4)将相同维度的多尺度特征相加,得到时域多尺度融合特征;将重组的查询集视觉特征、支持集视觉特征和支持集摘要特征输入到空间多尺度交互组件,得到空域多尺度融合特征,具体如下:(1)将S9中重组的查询集视觉特征、支持集视觉特征和支持集摘要特征利用自适应平均池化操作生成多个尺度的特征;(2)将对应尺度的三个特征拼接在一起;(3)采用卷积对拼接后的特征提取空间信息,得到多个尺度的空间特征;(4)将多个尺度的空间特征拼接在一起;(5)利用插值操作将多尺度空间特征合并,得到空域多尺度融合特征;关于循环一致性损失,具体如下: 式中,表示查询集视觉特征、表示支持集视觉特征,表示查询集重建特征,表示支持集重建特征;所述融合模块包含一个全连接层和两个预测网络,每个预测网络内包含一个全连接层、一个ReLU激活函数、一个dropout随机失活层和一个归一化层;在进行特征融合,并预测最终的摘要生成的过程中,利用焦点损失、时序交并比损失和二元交叉熵损失对预测的Y中重要性分数、位置回归和中心度做约束,整体损失如下: 其中,和表示第帧预测的重要性分数和人类标注的分数、和表示第个片段预测的时间间隔和真实的时间间隔、和表示第个片段预测的中心度分数和真实的中心度分数。

全文数据:

权利要求:

百度查询: 南京邮电大学 空时多尺度交互的视频摘要生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。