恭喜兰州理工大学赵宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜兰州理工大学申请的专利一种基于Vision Transformer和强化学习的视频内容描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115249275B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111332783.X,技术领域涉及:G06T9/00;该发明授权一种基于Vision Transformer和强化学习的视频内容描述方法是由赵宏;陈志文;王枭;宋馥荣;田伟权;米珊;韩力毅;党育;赵凡;倪志敏设计研发完成,并于2021-11-11向国家知识产权局提交的专利申请。
本一种基于Vision Transformer和强化学习的视频内容描述方法在说明书摘要公布了:本发明公开了一种基于VisionTransformer和强化学习的视频内容描述方法,包括步骤:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;特征提取,使用ResNet‑152网络和ResNeXt‑101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;特征编码,利用VisionTransformer模型的编码器对所述静态特征和动态特征进行特征编码;特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;强化学习优化;和生成视频内容描述。本发明克服了在编码阶段极易丢失大量中间隐藏信息,导致描述准确率低的问题,有效地提高视频描述的准确率,同时,本发明所生成的视频内容描述具有逻辑性强、可读性高的优点。
本发明授权一种基于Vision Transformer和强化学习的视频内容描述方法在权利要求书中公布了:1.一种基于VisionTransformer和强化学习的视频内容描述方法,其特征在于,包括步骤S1:视频数据分割,利用FFMPEG将视频随机切割为多个视频帧;S2:特征提取,使用ResNet-152网络和ResNeXt-101网络提取视频帧的静态特征和动态特征,并统一所述静态特征和动态特征的特征维度;S3:特征编码,利用VisionTransformer模型的编码器对所述静态特征和动态特征进行特征编码;S4:特征解码,利用多层LSTM网络对编码后的静态特征和动态特征进行解码;S5:强化学习优化,包括步骤S51:当步骤S4生成结束标识符END时,使用PolicyGradient强化学习算法,根据生成的描述与真实描述来计算CIDEr值,并将公式1计算的结果作为奖励值反馈至步骤S3中的编码器, 其中,c为候选标题,s为参考标题集合,n为n-gram的值,M为参考描述的数量,gn·表示基于n-gram的TF-IDF值;S52:根据奖励值计算最小损失值Lθ,优化所述VisionTransformer模型,最小损失值计算如公式2所示, 其中,ωs为VisionTransformer模型采样得到的单词序列,r为奖励函数,pθ为策略函数,θ为VisionTransformer模型参数;S53:重复步骤S3和S4,直到VisionTransformer模型达到饱和状态;S6:生成视频内容描述。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人兰州理工大学,其通讯地址为:730050 甘肃省兰州市七里河区兰工坪287号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。