买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多标签学习的多源素材混合剪辑视频的方法及系统,包括步骤一:最大化近义模糊匹配学习;最大化近义模糊匹配学习旨在将多标签分类问题映射为模糊匹配任务;步骤二:分阶段视频token化;步骤三:视频片段排序策略。本发明提出的学习策略,可以解决多标签分类中一对多的模糊匹配问题,不需要训练多个二分类器即可完成对多标签分类任务的训练,避免了同时训练多个二分类器所产生的损失计算冲突,并且节省了计算资源,本发明提出的视频词元(token)化方法,基于最小类内距离,分阶段完成对视频的token化,生成的视频token词典可接入后续任何tokens‑to‑token的训练任务。
主权项:1.一种基于多标签学习的多源素材混合剪辑视频的方法及系统,其特征在于:包括步骤一:最大化近义模糊匹配学习最大化近义模糊匹配学习旨在将多标签分类问题映射为模糊匹配任务,其损失函数定义为: 其中,C为token数量(词典大小),N为批量样本数;y是真值,,当第n个样本属于第i个token,则,否则;x为模型预测值;w为类别权重;GT(groundtruth)表示真值集合,ST(Synonymoustoken)表示真值的近义token集合;步骤二:分阶段视频token化设素材库有N条视频片段,表示为,是视频片段中选取的某一帧图像的特征,视频token化的目的是用token表示特征空间内在一定范围内相似的图像特征簇,相似图像簇可由聚类算法产生,本发明提出的分阶段视频token化方法,在每阶段确保图像特征簇的相似度范围,直到满足最大迭代次数T或数据量小于等于最小样本数min_num,在最后阶段,将不满足相似度范围的token特征与候选词典的token特征逐一计算距离,根据预设的条件选择性地加入到候选token词典中。算法伪代码如下:步骤三:视频片段排序策略当根据每个子句在素材库的固定范围中检索视频片段时,满足初始筛选条件的视频片段会有多个,对候选视频片段排序,把排序后的topK个视频片段视作当前子句的视频片段,拼接每个子句的视频片段再整体剪辑合成最终的视频。因此,视频片段排序是一个影响视频合成效果的关键环节。设输入文案有t个子句,根据初始条件检索到的视频片段有条,,则对输入文案各子句在固定范围的素材库中检索后的结果表示为,,为第i个子句检索到的第r条视频片段信息,。本发明设计的排序策略基于检索相似度和视频片段时长,的排序分值M定义为:其中,表示为第i个子句与其第r条视频片段的相似度,为视频片段最小可用时长;为第i个子句检索结果中第r条视频片段的时长。
全文数据:
权利要求:
百度查询: 开域数科信息技术(北京)有限公司 一种基于多标签学习的多源素材混合剪辑视频的方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。