Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

视频定位模型训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:成都考拉悠然科技有限公司

摘要:本申请提供视频定位模型训练方法,包括:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及样本数据集中样本视频的帧级视频特征;融合单词级文本特征与帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定视觉特征对应的剪辑视频段的阶段特定表示,并根据阶段特定表示,在剪辑视频段中选取候选视频段;通过候选视频段与样本数据集中的真实视频段,对初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型。本申请能够获取更具辨识力的多模态融合特征,并增强模型的跨模态对齐能力,实现视频和文本之间的细粒度对齐,提高了模型的组合泛化能力,保障模型能够实现高效的组合时刻定位。

主权项:1.一种视频定位模型训练方法,其特征在于,包括:通过初始视频定位模型提取样本数据集中样本文本的单词级文本特征,以及所述样本数据集中样本视频的帧级视频特征;融合所述单词级文本特征与所述帧级视频特征,得到句子级文本特征和包含上下文语义信息的视觉特征;确定所述视觉特征对应的剪辑视频段的阶段特定表示,并根据所述阶段特定表示,在所述剪辑视频段中选取候选视频段,其中,确定所述阶段特定表示的过程为,将所述视觉特征转换为对应视频端的开始表示、中间表示和结束表示,基于可调的权重矩阵,对所述开始表示、所述中间表示和所述结束表示进行非线性组合,得到所述阶段特定表示;通过所述候选视频段与所述样本数据集中的真实视频段,对所述初始视频定位模型进行训练,直至满足训练停止条件,得到目标视频定位模型,其中,所述初始视频定位模型的训练过程为,基于所述候选视频段与所述真实视频段,计算所述候选视频段的匹配分数与偏移距离,根据所述匹配分数与所述偏移距离,计算加权二元交叉熵损失与L1损失,计算所述加权二元交叉熵损失与所述L1损失的和,得到时刻定位损失,确定所述真实视频段对应的视频段为正样本,并从所述正样本外的其他视频段和其他视频中选择负样本,根据所述正样本与所述负样本计算对比学习损失,通过预设的掩码策略,遮挡所述样本文本与所述样本视频的基本组成单元,得到正负视频句子样本对,其中,所述样本文本的基本组成单元为单词,所述样本视频的基本组成单元为视频帧,通过所述初始视频定位模型对所述正负视频句子样本对进行处理,并基于处理结果计算语义对比学习损失,基于所述时刻定位损失、所述对比学习损失与所述语义对比学习损失,对所述初始视频定位模型进行训练。

全文数据:

权利要求:

百度查询: 成都考拉悠然科技有限公司 视频定位模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。