一种基于模态多样性的短视频自动标注方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：泉州桐兴科技有限公司

摘要：本发明提供一种基于模态多样性的短视频自动标注方法，属于自动标注领域，包括：获取三种模态以描述短视频的整体表示；将三种模态两两组合形成三种模态组，分别将各模态组合输入多头注意力机制中，以得到增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa，并获取一致性损失函数以实现对模态关系的制约；分别得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数；利用公式实现各模态的调制，得到调制量；根据一致性损失函数、解纠缠损失函数以及自动检索损失函数得到总损失函数，以总损失函数进行训练。本发明增强了模态的表示能力，提高了标注的准确性。

主权项：1.一种基于模态多样性的短视频自动标注方法，其特征在于：包括如下步骤：步骤S1、从短视频数据集获取三种模态以描述短视频的整体表示，三种模态分别为视觉特征、轨迹特征和音频特征；步骤S2、将三种模态两两组合形成三种模态组，分别将各模态组合输入多头注意力机制中，以得到轨迹增强的视觉特征fv,t、音频增强的视觉特征fv,a、视觉增强的轨迹特征ft,v、音频增强的轨迹特征ft,a、视觉增强的音频特征fa,v和轨迹增强的音频特征fa,t，进而得到增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa，并获取一致性损失函数以实现对模态关系的制约；步骤S3、根据增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa得到短视频的一致表示fo，并根据视频的一致表示分别得到视觉特定表示、轨迹特定表示和音频特定表示，进而得到解纠缠损失函数；步骤S4、根据增强的视觉特征fv、增强的轨迹特征ft和增强的音频特征fa得到模态导向的表示Fm，并根据模态导向的表示Fm构建图以得到图卷积网络Hm，利用公式实现各模态的调制，得到调制量，其中，m∈{v,t,a}，γm和βm分别为调制参数；步骤S5、将三个模态的调制量融合并获取类别嵌入矩阵Hfinal，并获取自动检索损失函数，自动检索损失函数与预测标签表示相关，预测标签表示根据类别嵌入矩阵Hfinal获取，根据一致性损失函数、解纠缠损失函数以及自动检索损失函数得到总损失函数，以总损失函数进行训练。

全文数据：

权利要求：

百度查询：泉州桐兴科技有限公司一种基于模态多样性的短视频自动标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种建筑施工建筑网

下一篇：一种提升降尘效果的降尘管

相关技术

一种建筑施工建筑网

一种提升降尘效果的降尘管

一种便于取放的医疗背囊

远程水位监测仪

一种建筑工程钢材运输装置

一种具有接料底的污水自动过滤箱装置

一种鞋盒

一种搪玻璃反应釜过滤结构

一种便于升降的一体机

一种用于衣物回收的大型自助回收设备

一种节能注塑机余料回收装置

一种数控磨砖机用滚刀头主轴箱

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于模态多样性的短视频自动标注方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务