基于常识增强的视频行为片段候选集生成方法及系统

导航：龙图腾网> 最新专利技术> 基于常识增强的视频行为片段候选集生成方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东大学;哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);浙江大华技术股份有限公司;山东省计算中心(国家超级计算济南中心)

摘要：本发明属于视频行为片段检索技术领域。提供了一种基于常识增强的视频行为片段候选集生成方法及系统，获取查询语句和待检索视频的语义特征表示；通过跨模态交互模块对视觉特征语义表示和文本特征语义表示进行交互，融合多模态信息；预测每个视频单元被保留的概率，并依据概率保留高信息有效性的视频单元；通过视觉适配层将保留的视频帧的特征映射到图文预训练大模型的输入空间；通过插入适配层对图文预训练大模型进行微调，并构造指令指示模型完成视频行为片段候选集生成任务。本发明引入图文预训练大模型以利用其中丰富的外部知识提高对视觉内容的理解，同时兼顾了视频行为片段候选集的生成速度和精度。

主权项：1.一种基于常识增强的视频行为片段候选集生成方法，其特征在于，包括以下过程：将待检索视频切分成连续但互不重叠的视频单元，获取查询语句的语义特征表示以及各个视频单元的语义特征表示；将查询语句的语义特征表示映射到跨模态公共语义空间，得到模态对齐的查询语句语义特征表示，将视频单元的语义特征表示映射到跨模态公共语义空间，得到模态对齐的视频单元语义特征表示；将模态对齐的查询语句语义特征表示与模态对齐的视频单元语义特征表示进行交互，得到融合文本信息的视频单元的语义特征表示，用于预测每个视频单元被保留的概率；根据视频单元被保留的概率，对各个视频单元进行排序，并保留前个视频单元，将保留的前个视频单元的融合文本信息的语义特征表示映射到预训练模型的输入空间，与模态对齐的查询语句语义特征表示以及预设指令拼接后作为所述预训练模型的输入，得到视频行为片段候选集。

全文数据：

权利要求：

百度查询：山东大学哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 浙江大华技术股份有限公司山东省计算中心(国家超级计算济南中心) 基于常识增强的视频行为片段候选集生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种导电布精准裁切装置

下一篇：一种髌骨粘连康复治疗训练装置

相关技术

一种导电布精准裁切装置

一种髌骨粘连康复治疗训练装置

显示设备

电力检修工具的夹持装置

一种立轴冲击式破碎机的转子结构

一种会话检测方法、装置、检测设备及计算机存储介质

一种智能制造一体化用生产管理系统

涡轮机部件或部件的组合件

一种铝合金车架纵横梁厚板接头智能设计方法与装置

一种异型钢加工用折弯设备

基于数据分析的六维力传感器稳定性测试方法

任务分配方法、任务分配装置、介质及电子设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于常识增强的视频行为片段候选集生成方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务