腾讯科技(深圳)有限公司刘文然获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉腾讯科技(深圳)有限公司申请的专利模型训练方法、视频分类方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114780794B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210273217.4,技术领域涉及:G06V20/40;该发明授权模型训练方法、视频分类方法、装置、设备及存储介质是由刘文然;谯睿智;朱允全设计研发完成,并于2022-03-18向国家知识产权局提交的专利申请。
本模型训练方法、视频分类方法、装置、设备及存储介质在说明书摘要公布了:本申请提供了一种模型训练方法、视频分类方法、装置、设备及存储介质,该方法包括获取第一视频、第一视频的分类标注和标题信息;对第一视频进行帧采样得到第一视频的至少一个视频帧;对第一视频的至少一个视频帧分别进行文字识别得到至少一个视频帧各自的文本信息;对至少一个视频帧各自的文本信息进行处理得到第一视频的第一词向量,对第一视频的标题信息进行处理,得到第一视频的第二词向量;根据第一视频的第一词向量、第二词向量和至少一个视频帧训练视频分类模型。由于文本信息可以更好的反映视频内容,从而使得经过视频帧的文本信息、视频帧和视频的标题信息训练的视频分类模型更佳,进而可以提高视频分类精度。
本发明授权模型训练方法、视频分类方法、装置、设备及存储介质在权利要求书中公布了:1.一种模型训练方法,其特征在于,包括: 获取第一视频、所述第一视频的分类标注和所述第一视频的标题信息; 对所述第一视频进行帧采样,得到所述第一视频的至少一个视频帧; 对所述第一视频的至少一个视频帧分别进行文字识别,得到所述至少一个视频帧各自的文本信息; 对所述至少一个视频帧各自的文本信息进行处理,得到所述第一视频的第一词向量,并对所述第一视频的标题信息进行处理,得到所述第一视频的第二词向量; 根据所述第一视频的第一词向量、第二词向量和所述至少一个视频帧训练视频分类模型; 其中,所述视频分类模型包括: 图像神经网络,用于对所述至少一个视频帧分别进行处理,得到所述至少一个视频帧各自的第一图像特征; 平均池化层,用于对所述至少一个视频帧各自的第一图像特征进行处理,得到所述至少一个视频帧各自的第二图像特征; 第一文本神经网络,用于对所述第一视频的第一词向量进行处理,得到所述第一视频的第一文本特征; 第一全连接层,用于对所述第一视频的第一文本特征进行处理,得到所述第一视频的第二文本特征; 第二文本神经网络,用于对所述第一视频的第二词向量进行处理,得到所述第一视频的第三文本特征; 第二全连接层,用于对所述第一视频的第三文本特征进行处理,得到所述第一视频的第四文本特征; 转换器,用于:对所述至少一个视频帧各自的第二图像特征、所述第一视频的第二文本特征和第四文本特征进行特征拼接,得到N+2*c维的特征,其中,N为视频帧的数量,c为输入所述转换器的特征长度;将所述N+2*c维的特征与c维的类别标识进行特征拼接,得到N+3*c维的特征;将所述N+3*c维的特征与相同维度的位置编码相加,得到所述转换器的编码器的输入,以使所述转换器的编码器输出所述第一视频的融合特征;其中,所述转换器由L层编码器顺序连接而成,每层编码器由层归一化LN、多头注意力机制MSA和多层感知机MLP三种模块构成,L为正整数; 分类器,用于对所述第一视频的融合特征进行处理,以实现对所述第一视频进行分类标注。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。