上海人工智能创新中心黎昆昌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海人工智能创新中心申请的专利基于非掩码对齐的视频基模型获取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116310995B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310315252.2,技术领域涉及:G06V20/40;该发明授权基于非掩码对齐的视频基模型获取方法是由黎昆昌;王亚立;李一卓;王毅;何逸楠;王利民;乔宇设计研发完成,并于2023-03-27向国家知识产权局提交的专利申请。
本基于非掩码对齐的视频基模型获取方法在说明书摘要公布了:本发明涉及基于非掩码对齐的视频基模型获取方法,用于解决当前视频基模型获取时训练成本高且难收敛、不具有泛化性和扩展性的问题。所述方法首先仅使用视频数据来进行掩码视频建模,得到一个能够在纯视频任务中表现优异的视频基模型。接下来,将获得的视频基模型与其它模态模型联合训练,比如文本模型,可获得一个能够处理复杂的与视频相关的跨模态任务模型。针对不同的纯视频或跨模态下游任务,可以对获得的基础模型进行简单的微调,能够使其高效地完成各种下游任务。
本发明授权基于非掩码对齐的视频基模型获取方法在权利要求书中公布了:1.基于非掩码对齐的视频基模型获取方法,其特征在于,所述方法包括下述步骤:将作为训练数据的原始视频的视频图像块集合作为第一数据集,对原始视频的图像帧采用掩码策略进行遮挡,获得非掩码视频图像块集合作为第二数据集;将CLIP模型的视觉编码器作为教师模型,将未被训练的视觉编码器作为学生模型;在训练时,将第一数据集输入教师模型,将第二数据集输入学生模型,挑选两个模型的对应的非掩码视频图像块输出进行线性投影对齐,计算标准化后二者的均方误差,并不断优化减小均方误差;将训练好的学生模型作为视频基模型,将其与其它模态模型结合进行进一步训练,获得的最终模型能够实现跨模态视频任务处理;所述掩码策略为对要进行掩码处理的图像帧依次采用语义引导进行掩码,掩码比例为80%;所述对要进行掩码处理的图像帧依次采用语义引导进行掩码,具体为:在教师模型的最后一层自注意力中,获取每帧的类标记和空间标记,是标记的数量,是标记的维度,和为该帧的高和宽;采用下式计算注意力分数,用于表示每个标记的语义主要性: 式中:为注意力头的数目;为第n个函数,和是其参数;和是第n个注意力头的线性投影,为归一化指数函数;T为矩阵转置;基于选择一帧图像中的非掩码块标记,将未被选择的进行掩码处理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海人工智能创新中心,其通讯地址为:200232 上海市徐汇区云锦路701号37、38层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。