一种面向视频的可控文本摘要生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：兰州大学

摘要：本发明公开了一种面向视频的可控文本摘要生成方法，包括步骤：1收集并构建场景视频数据集，针对数据集进行文本摘要数据标定；2将视频以秒为单位切割为多帧并标定文本构建控制信号；3基于CLIP网络和I3D网络提取视频的静态和动态特征并统一不同的视频特征维度；4利用VisionTransformerEncoder对融合特征进行编码；5利用多层LSTM网络对编码后的特征进行解码，生成可控的视频文本摘要；6利用强化学习优化模型参数。与现有技术相比，本发明构建控制信号，利用控制信号指导模型生成可控的视频摘要，同时解决了特征编码阶段隐藏状态的丢失问题，提高了视频摘要内容的准确性以及内容可控性。

主权项：1.一种面向视频的可控文本摘要生成方法，其特征在于，包括步骤：S1：数据集采集，场景视频收集、文本摘要标定；S2：控制信号提取，基于人为标定的文本摘要数据集提取对应控制信号；S3：视频数据分割，利用OpenCV库函数将视频以秒为单位切割为多个视频帧；S4：特征提取，基于CLIP网络和I3D网络提取视频的静态和动态特征，使用融合编码器统一不同的视频特征维度；S5：特征编码，基于VisionTransformer的Encoder块对融合特征进行视频向量编码；S6：构建控制对象检测器，训练阶段使用S2所提取控制信号，推理阶段使用检测器预测控制对象；S7：构建控制对象生成器，基于单层Transformer解码器一次性生成所有控制对象；S8：特征解码，利用多层LSTM网络对融合编码后的特征进行时序性解码，结合控制对象生成视频摘要；S9：强化学习优化，模型训练过程中，采用强化学习PolicyGradient方法优化模型参数。

全文数据：

权利要求：

百度查询：兰州大学一种面向视频的可控文本摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种便于安装的声屏障

下一篇：一种稳定高效的塑料挤出机

相关技术

一种便于安装的声屏障

一种稳定高效的塑料挤出机

液体加热器具

一种废旧电池回收系统及其回收方法

一种中压开关柜的保护装置及中压开关柜

一种倍捻机退绕机构

一种畜牧用防疫架

一种具有防护结构的物料升降装置

一种轮式翻抛机的箱梁结构

一种基于双边模糊集的三支决策疾病分类方法及装置

一种细胞凋亡检测试剂盒

一种压缩空气储能系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向视频的可控文本摘要生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务