视音相关性特征融合策略的视频显著性预测方法及系统

导航：龙图腾网> 最新专利技术> 视音相关性特征融合策略的视频显著性预测方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京信息工程大学

摘要：本发明公开了视音相关性特征融合策略的视频显著性预测方法及系统，涉及视频显著性预测技术领域。本发明包括：接收视频及音频数据，对视频数据进行预处理，得到连续的视频帧；采用预训练后的S3D作为视觉编码器，结合空洞空间金字塔池化和局部重要性池化，根据视频帧提取得到多尺度视觉时空特征；将多尺度视觉时空特征输入到多尺度特征协同模块中，通过在网络的不同层次提取和融合多尺度特征，得到增强特征，用于丰富其在对于不同大小物体的表征能力。本发明通过具有相关性感知的多头交叉注意力机制，根据音视频特征的语义相关性动态调整融合策略，有效避免了背景音频等无关音频对显著性预测的干扰，提高了预测的精度。

主权项：1.视音相关性特征融合策略的视频显著性预测方法，其特征在于，具体包括以下步骤：接收视频及音频数据，对视频数据进行预处理操作，得到连续的视频帧；采用预训练后的S3D作为视觉编码器，结合空洞空间金字塔池化和局部重要性池化，根据视频帧提取得到多尺度视觉时空特征；将多尺度视觉时空特征输入到多尺度特征协同模块中，通过在网络的不同层次提取和融合多尺度特征，得到增强特征，用于丰富其在对于不同大小物体的表征能力；对音频数据预处理实现与视觉数据的时序同步，采用SoundNet作为音频编码器进行特征提取，得到音频特征；构建相关性引导的视音特征融合模块，通过具有相关性感知的多头交叉注意力机制计算音频特征和具有最小空间尺度视频特征的语义相关性，并基于此相关性有选择地对视频特征与音频特征进行多模态融合，得到融合特征；构建多尺度调节门控模块，筛选融合特征中的重要信息传递给其他视觉特征，用于提高对多尺度视频特征的利用程度；根据损失函数对以上步骤构成的整体模型进行训练，直至达到预测精度要求，然后利用训练后的整体模型进行显著性预测；将多尺度视觉时空特征输入到多尺度特征协同模块中，通过在网络的不同层次提取和融合多尺度特征，得到增强特征，具体如下：将多尺度视觉时空特征与相邻尺度的特征交互，表示为：式中分别代表从分辨率高到低分辨率的相邻多尺度特征图；是处理后的特征，多尺度特征协同模块映射MS·）表示为：式中，代表3D卷积，代表上采样后跟随3D卷积，代表下采样后跟随3D卷积，h、m、l分别代表高、中、低三种不同的尺度，表示当前正处于第j个处理阶段的尺度为i的特征；以及分别代表当前正在被处理某一种尺度下的特征，以及与其相邻的更低或更高尺度的特征；经过多尺度特征协同模块处理后，即可得到增强特征;构建相关性引导的视音特征融合模块，通过具有相关性感知的多头交叉注意力机制计算音频特征和具有最小空间尺度视频特征的语义相关性，并基于此相关性有选择地对视频特征与音频特征进行多模态融合，得到融合特征，具有相关性感知的多头交叉注意力机制表述如下：（1）对于视觉特征和音频特征使用六种不同的仿射变换、、、、、来生成视觉查询、视觉键、视觉值、音频查询、音频键和音频值，则视觉对音频的注意力以及音频对视觉的注意力表述为：式中softmax·）为激活函数，表示所有查询、键、值向量的维度；（2）引入了相关性加权估计模块，用以评估两种模态的综合特征，以生成动态调整不同头部影响的权重，则融合结果可表述为：式中表示学习得到的每个注意力头的权重，用于权衡不同注意力头的影响，增强融合的相关性导向特性；构建多尺度调节门控模块，筛选融合特征中的重要信息传递给其他视觉特征，以提高对多尺度视频特征的利用程度，具体如下：接收多尺度的视觉特征，以及来自相关性引导的视音特征融合模块或前一阶段门控模块的融合特征，则有：其中表示经过上采样处理的前一阶段的融合特征，表示连接操作，表示3D卷积层，表示sigmoid函数，表示全局平均池化，门控值用于对音视频特征进行加权。

全文数据：

权利要求：

百度查询：南京信息工程大学视音相关性特征融合策略的视频显著性预测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种钢管焊接用焊接机

下一篇：一种命令行的配置存储方法及其对应的配置读取方法

相关技术

一种钢管焊接用焊接机

一种命令行的配置存储方法及其对应的配置读取方法

一种低品铬铁冷压球制造工艺

电驱压裂泵注设备及机组供电系统

一种互联网服务器接线固定装置

数据传输控制方法、设备、存储介质及程序产品

基板研磨方法

一种煤炭制样系统

一种发泡陶瓷制备用匣体及方法

信息推送的方法、装置、电子设备和存储介质

一种基于复合磁路双闭环补偿的抗直流偏磁电流互感器

用于醛加氢合成醇的合成装置、合成系统及合成方法

视频相关技术

视频抽帧方法以及视频预览交互方法_腾讯科技(深圳)有限公司_202310436197.2

视频编码和解码_佳能株式会社_201980062116.9

带芯片的视频接头_上海裕鼎电源科技有限公司_202323458978.6

视频播放系统及方法_中移(杭州)信息技术有限公司_202410143615.3

视频图像的拼缝搜索方法、视频图像的拼接方法和装置_北京旷视科技有限公司_202110893253.6

帧内滤波预测方法、视频编码方法、视频解码方法及装置_浙江大华技术股份有限公司_202310415904.X

语义视频编解码方法、安防视频系统及存储介质_中移(杭州)信息技术有限公司_202410010515.3

视频字幕文件生成方法、视频生成方法、装置及电子设备_中移(杭州)信息技术有限公司_202311487835.X

视频设备的补光方法、装置、视频设备和可读存储介质_浙江宇视科技有限公司_202310405307.9

视频加密传输方法和视频加密传输系统_天翼视联科技有限公司_202410948721.9

融合相关技术

一种用于椎间融合的锌-镁-聚醚醚酮复合椎间融合器_北京大学第三医院(北京大学第三临床医学院)_202411026183.4

双向融合6D物体位姿估计方法_哈尔滨工业大学_202410801484.3

一种红外红点融合瞄准镜_广东鲲鹏智能机器设备有限公司_202411225632.8

一种船舶航行信息采集与融合终端_厦门天吴智能科技有限公司_202420406446.3

点云融合方法、装置、设备及存储介质_中国移动通信有限公司研究院_202311527326.5

一种雷视融合的测速装置_行道雄安科技有限公司_202420459442.1

一种跨域超融合网关测试方法_中国信息通信研究院_202410932982.1

多要素融合封装的建模方法及装置_中国移动通信集团福建有限公司_202311176576.9

融合设置PCF服务发现的方法及系统_中国移动通信集团设计院有限公司_202311530597.6

一种桥梁图像融合方法及设备_湘江实验室_202411265036.2

策略相关技术

行驶策略控制方法、装置、车辆及存储介质_张家港长城汽车研发有限公司_202410737499.8

安全策略生效检测方法、装置、设备及介质_中国移动通信有限公司研究院_202410028003.X

资源分配策略的确定方法、装置及设备_中移(杭州)信息技术有限公司_202311475954.3

播发策略控制方法、装置、设备及存储介质_中国移动通信集团设计院有限公司_202411006992.9

基于竞争抢夺性策略的数据分类方法_深圳前海微众银行股份有限公司_202410783853.0

数据库缓存策略调整方法、装置、设备_苏州吉呗思数据技术有限公司_202411275712.4

访问策略的调整方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202310446534.6

策略更新的方法、装置、网络功能及存储介质_中国移动通信有限公司研究院_202311278962.9

策略确定方法、装置、设备、存储介质及程序产品_重庆长安汽车股份有限公司_202410777859.7

分流策略调整方法、装置、设备和可读存储介质_中移物联网有限公司_202311665826.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

视音相关性特征融合策略的视频显著性预测方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务