Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种短视频自动生成字幕的方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了一种短视频自动生成字幕的方法及系统。通过3D卷积网络进行视频的特征提取,获得视频特征序列,使用DAPs模型对接收到的视频特征序列进行事件检测,得到预测的事件片段并且对每个片段打分。单独处理获得的每个事件片段,首先对事件片段进行视觉嵌入操作,然后将进行视觉嵌入操作后的事件片段输入Transformer模型中,通过获得预测的文本。本发明通过融合跨模态技术,前期处理包含事件检测,缩小了后续文本生成工作的范围,增加了生成的文本与事件的匹配度。文本生成部分发挥Transformer在特征编码、解码方面的出色表现。

主权项:1.一种短视频自动生成字幕的方法,其特征在于,步骤如下:步骤1、构建数据集;构建数据集,对国内各大短视频平台中的已自带字幕的视频进行随机抽样,对视频统一做预处理,对每个视频的字幕进行人为检查、对不符事实的描述进行修正,确认字幕能完整且简练的概括视频所展示的场景或事件,处理后的字幕作为视频的标签;步骤2、视频特征提取;使用视频特征提取模块中的3D卷积网络进行视频的特征提取获得视频特征序列;步骤3、事件检测;使用事件检测模块中的DAPs模型来进行事件检测,在步骤二的基础上,将获取的视频特征输入DAPs模型中的LSTM网络,串联特征,LSTM网络的隐藏层向量作为时间特征,再使用滑动窗口来扫描整个特征序列,得到预测的事件片段并且对每个片段打分;将每个片段得分和片段匹配准确度作为损失函数,训练DAPs模型;步骤4、文本生成;使用文本生成模块中的Transformer模型进行文本生成,单独处理步骤3获得的每个事件片段,首先对事件片段进行视觉嵌入操作,然后将进行视觉嵌入操作后的事件片段输入Transformer模型中,通过获得预测的文本;步骤5、通过数据集对步骤2到步骤4的网络模型进行训练,通过训练好的网络模型完成短视频字幕的自动生成;步骤2具体方法如下:使用的3D卷积网络为C3D网络,C3D是深度3维卷积网络,用于处理视频,C3D网络包括8个卷积层,5个最大池化层和2个全连接层,以及非线性输出层;3D卷积核尺寸均为3×3×3,在空间和时间上都为步长1;5个最大池化层依次为pool1-pool5,pool1的池化核为1×2×2,其他池化核均为2×2×2,2个全连接层均有4096个输出单元;通过C3D网络对视频进行处理,得到视频特征序列;步骤3具体方法如下:将步骤2得到的视频特征序列输入到DAPs模型的LSTM网络中来把这些特征串联起来,LSTM的隐藏层输出作为时间特征序列,再通过Anchor机制使用滑动窗口来扫描整个特征序列,得到预测的事件片段并且对每个片段打分;滑动窗口的中心在原视频序列上的映射点称为Anchor,以Anchor为中心生成尺度不同的proposals,对于每个proposal根据是否包含一个事件打分,并且计算proposal与实际事件片段的匹配准确率,损失函数由预测事件是否存在的打分与匹配准确率构成,前者要求proposal包含事件的概率尽量高,后者要求预测片段尽可能拟合事实事件片段的区间;最终得到事件检测的结果:事件1的起始时间,事件1的结束时间、…、事件n的起始时间,事件n的结束时间;步骤4具体方法如下:文本生成模型采用基于Transformer的文本生成模型;首先进行视觉嵌入,将事件片段的视频序列,输入C3D网络提取视频特征,再输入LSTM网络共享时序信息,将LSTM的隐藏层输出作为Transformer编码器的输入;Transformer模型由编码器和解码器两个部分构成,编码器的输入是视频特征序列,解码器的输入是编码后的特征序列,解码器的输出是预测的文本,编码器由6个编码块构成,解码器由6个解码块构成;具体来看,一个编码块解码块包含多头自注意力机制层、残差归一化层、前馈神经网络层;编码块与解码块的网络结构相同,其输入、输出内容不同;各层的结构及作用如下:多头自注意力机制层,首先单层的自注意力机制的公式为: 其中,Q为query向量,K为key向量,V为value向量,在编码块中,Q、K、V均来自于编码块或解码块上一层的输入;多头自注意力机制对编码块或解码块的输入进行多次线性变换,再分别计算Attention值,再将结果进行拼接和线性变换操作,公式为: MultiHeadQ,K,V=Concathead1,…,headhWo其中,为对于Q的线性变换权重,同理,headi为第i个attention分数,concat为按列的拼接操作,Wo为线性变换权重;前馈神经网络层:由Relu激活层和全连接层构成,目的是调整输出维度,公式为:FFNx=max0,xW1+b1W2+b2其中,W1为激活层权重,b1为激活层偏置,W2为全连接层权重,b2为全连接层偏置,x为输入向量;残差归一化层:由残差网络和归一化构成,残差连接解决多层网络训练的问题,能够让网络只关注当前差异的部分,归一化操作可以加快网络收敛,公式为:output=LayerNormx+Fx其中,x为输入向量,Fx为残差归一化层的前一层操作,多头自注意力机制或者前馈神经网络。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种短视频自动生成字幕的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。