一种短视频自动生成字幕的方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州电子科技大学

摘要：本发明公开了一种短视频自动生成字幕的方法及系统。通过3D卷积网络进行视频的特征提取，获得视频特征序列，使用DAPs模型对接收到的视频特征序列进行事件检测，得到预测的事件片段并且对每个片段打分。单独处理获得的每个事件片段，首先对事件片段进行视觉嵌入操作，然后将进行视觉嵌入操作后的事件片段输入Transformer模型中，通过获得预测的文本。本发明通过融合跨模态技术，前期处理包含事件检测，缩小了后续文本生成工作的范围，增加了生成的文本与事件的匹配度。文本生成部分发挥Transformer在特征编码、解码方面的出色表现。

主权项：1.一种短视频自动生成字幕的方法，其特征在于，步骤如下：步骤1、构建数据集；构建数据集，对国内各大短视频平台中的已自带字幕的视频进行随机抽样，对视频统一做预处理，对每个视频的字幕进行人为检查、对不符事实的描述进行修正，确认字幕能完整且简练的概括视频所展示的场景或事件，处理后的字幕作为视频的标签；步骤2、视频特征提取；使用视频特征提取模块中的3D卷积网络进行视频的特征提取获得视频特征序列；步骤3、事件检测；使用事件检测模块中的DAPs模型来进行事件检测，在步骤二的基础上，将获取的视频特征输入DAPs模型中的LSTM网络，串联特征，LSTM网络的隐藏层向量作为时间特征，再使用滑动窗口来扫描整个特征序列，得到预测的事件片段并且对每个片段打分；将每个片段得分和片段匹配准确度作为损失函数，训练DAPs模型；步骤4、文本生成；使用文本生成模块中的Transformer模型进行文本生成，单独处理步骤3获得的每个事件片段，首先对事件片段进行视觉嵌入操作，然后将进行视觉嵌入操作后的事件片段输入Transformer模型中，通过获得预测的文本；步骤5、通过数据集对步骤2到步骤4的网络模型进行训练，通过训练好的网络模型完成短视频字幕的自动生成；步骤2具体方法如下：使用的3D卷积网络为C3D网络，C3D是深度3维卷积网络，用于处理视频，C3D网络包括8个卷积层，5个最大池化层和2个全连接层，以及非线性输出层；3D卷积核尺寸均为3×3×3，在空间和时间上都为步长1；5个最大池化层依次为pool1-pool5，pool1的池化核为1×2×2，其他池化核均为2×2×2，2个全连接层均有4096个输出单元；通过C3D网络对视频进行处理，得到视频特征序列；步骤3具体方法如下：将步骤2得到的视频特征序列输入到DAPs模型的LSTM网络中来把这些特征串联起来，LSTM的隐藏层输出作为时间特征序列，再通过Anchor机制使用滑动窗口来扫描整个特征序列，得到预测的事件片段并且对每个片段打分；滑动窗口的中心在原视频序列上的映射点称为Anchor，以Anchor为中心生成尺度不同的proposals，对于每个proposal根据是否包含一个事件打分，并且计算proposal与实际事件片段的匹配准确率，损失函数由预测事件是否存在的打分与匹配准确率构成，前者要求proposal包含事件的概率尽量高，后者要求预测片段尽可能拟合事实事件片段的区间；最终得到事件检测的结果：事件1的起始时间，事件1的结束时间、…、事件n的起始时间，事件n的结束时间；步骤4具体方法如下：文本生成模型采用基于Transformer的文本生成模型；首先进行视觉嵌入，将事件片段的视频序列，输入C3D网络提取视频特征，再输入LSTM网络共享时序信息，将LSTM的隐藏层输出作为Transformer编码器的输入；Transformer模型由编码器和解码器两个部分构成，编码器的输入是视频特征序列，解码器的输入是编码后的特征序列，解码器的输出是预测的文本，编码器由6个编码块构成，解码器由6个解码块构成；具体来看，一个编码块解码块包含多头自注意力机制层、残差归一化层、前馈神经网络层；编码块与解码块的网络结构相同，其输入、输出内容不同；各层的结构及作用如下：多头自注意力机制层，首先单层的自注意力机制的公式为：其中，Q为query向量，K为key向量，V为value向量，在编码块中，Q、K、V均来自于编码块或解码块上一层的输入；多头自注意力机制对编码块或解码块的输入进行多次线性变换，再分别计算Attention值，再将结果进行拼接和线性变换操作，公式为： MultiHeadQ,K,V＝Concathead1,…,headhWo其中，为对于Q的线性变换权重，同理，headi为第i个attention分数，concat为按列的拼接操作，Wo为线性变换权重；前馈神经网络层：由Relu激活层和全连接层构成，目的是调整输出维度，公式为：FFNx＝max0,xW1+b1W2+b2其中，W1为激活层权重，b1为激活层偏置，W2为全连接层权重，b2为全连接层偏置，x为输入向量；残差归一化层：由残差网络和归一化构成，残差连接解决多层网络训练的问题，能够让网络只关注当前差异的部分，归一化操作可以加快网络收敛，公式为：output＝LayerNormx+Fx其中，x为输入向量，Fx为残差归一化层的前一层操作，多头自注意力机制或者前馈神经网络。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种短视频自动生成字幕的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无线电力传输方法、无线电力发送器和无线电力接收器

下一篇：新能源多场站柔性直流外送系统强度评估方法、装置

相关技术

一种无线电力传输方法、无线电力发送器和无线电力接收器

新能源多场站柔性直流外送系统强度评估方法、装置

热回收系统的控制方法、控制装置及计算机可读存储介质

一种轮胎X光检验机输送定位系统及工作方法

一种基于电子元器件控制的防卡死智能锁体

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

一种木门加工灰尘清理装置

一种燃料舱搭载精度控制方法和燃料舱

信息展示方法及电子设备

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

一种光伏构件

基于FPN的复杂环境典型树木高效智能识别方法及系统

字幕相关技术

一种短视频自动生成字幕的方法及系统_杭州电子科技大学_202110442856.4

低资源的音频字幕生成方法、装置、电子设备及介质_北京邮电大学_202311593526.0

视频字幕生成系统和方法_脸萌有限公司_202410555611.6

一种字幕显示屏角度调节装置_安徽明生电力投资集团有限公司资产运营分公司_202420801761.6

一种字幕的处理方法及装置_海信视像科技股份有限公司_202110297331.6

一种字幕显示方法、装置、电子设备和可读存储介质_维沃移动通信有限公司_202111267156.2

一种字幕文件加密解密方法、系统、存储介质及电子设备_北京奇艺世纪科技有限公司_202111431014.5

一种视频字幕区域的确定方法和装置_北京稀宇极智科技有限公司_202311865215.5

一种字幕翻译方法、装置和用于字幕翻译的装置_北京搜狗科技发展有限公司_202110742660.7

字幕图像生成方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202411305272.2

生成相关技术

气溶胶生成装置_深圳市合元科技有限公司_202420101235.9

程序世界生成_祖克斯有限公司_202410744191.6

气溶胶生成系统_韩国烟草人参公社_202280007783.9

对象生成方法、4D对象生成方法及视频生成方法_阿里巴巴达摩院(杭州)科技有限公司_202410892921.7

车辆用声音生成装置_马自达汽车株式会社_202210048051.6

图像生成模型训练方法和装置、图像生成方法和装置_北京百度网讯科技有限公司_202011415838.9

画像生成方法、画像生成装置、介质与电子设备_OPPO(重庆)智能科技有限公司_202010807918.2

页面显示逻辑生成方法、页面生成方法、介质和计算设备_杭州网易智企科技有限公司_202410956542.X

基于代码生成器Codegen的算子框架、构建方法及算子生成方法_北京壁仞科技开发有限公司_202411433151.6

采用基于混合专家模型的生成式对抗网络的图像生成方法_江南大学_202411423496.3

自动相关技术

自动冲泡系统及自动冲泡设备的控制方法_上海康翊企业管理有限公司_202410942809.X

自动烹饪机及自动烹饪的方法_深圳洋能科技有限公司_201910910986.9

自动和半自动越野车控制_北极星工业有限公司_202410605520.9

自动套袋机_英普瑞科技(嘉兴)有限公司_202010232721.0

自动焊接机_娄底市亿和机械制造有限公司_202323094287.2

自动分析装置_株式会社日立高新技术_202380032252.X

自动反盘机_上海牙山弹簧制造有限公司_202420645861.4

自动脱钩装置_山东力印智能设备有限公司_202323547171.X

自动分析装置_株式会社日立高新技术_201980021747.6

自动冲洗阀_康尔福盛303公司_202323078109.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种短视频自动生成字幕的方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务