国网河北省电力有限公司信息通信分公司;北京邮电大学;国家电网有限公司彭姣获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网河北省电力有限公司信息通信分公司;北京邮电大学;国家电网有限公司申请的专利视频文本跨模态检索方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119166853B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411097270.9,技术领域涉及:G06F16/783;该发明授权视频文本跨模态检索方法及装置是由彭姣;辛锐;吴军英;欧中洪;王玉贞;宋美娜;贺月;朱一凡;陈曦;吕帅;常永娟;郑朴原;卢艳艳;尹晓宇;李涛;马子淇;张鹏飞;李士林设计研发完成,并于2024-08-12向国家知识产权局提交的专利申请。
本视频文本跨模态检索方法及装置在说明书摘要公布了:本发明提供一种视频文本跨模态检索方法及装置,属于数据处理领域。该方法包括:获取目标数据集中的原始数据;其中,原始数据中包括视频数据及其对应的文本数据;对原始数据进行预处理,得到多模态特征嵌入向量;对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,视频特征包括视频全局特征和视频局部特征;分别对视频全局特征、视频局部特征和文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间;基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明通过联合视觉、文本以及局部关系进行空间嵌入学习,能更加精确高效地实现跨模态检索。
本发明授权视频文本跨模态检索方法及装置在权利要求书中公布了:1.一种视频文本跨模态检索方法,其特征在于,包括: 获取目标数据集中的原始数据;其中,所述原始数据中包括视频数据及其对应的文本数据; 对所述原始数据进行预处理,得到多模态特征嵌入向量; 对所述多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,所述视频特征包括视频全局特征和视频局部特征; 分别对所述视频全局特征、所述视频局部特征和所述文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间; 基于所述视频嵌入空间、所述视频局部关系嵌入空间和所述文本嵌入空间进行视频文本跨模态检索; 其中,所述对所述视频局部特征进行嵌入学习,得到视频局部关系嵌入空间,包括: 将所述视频局部特征中任意一帧中检测置信度最高的候选区域作为该帧的视觉表征; 基于所述视觉表征,对所述视频局部特征每一帧内部包含的实体间的数据流进行处理; 基于所述视觉表征,对所述视频局部特征每一帧之间的数据流进行处理; 根据处理后的所述视频局部特征每一帧内部包含的实体间的数据流和所述视频局部特征每一帧之间的数据流,得到视频局部关系嵌入空间; 其中,所述基于所述视觉表征,对所述视频局部特征每一帧内部包含的实体间的数据流进行处理,包括: 针对跨模态跳跃连接网络中的每个跳跃连接融合模块,执行以下步骤: 将文本表征输入到任意一个跳跃连接融合模块中的自注意力层中,得到经过所述自注意力层后的文本表征;其中,所述文本表征基于所述文本数据确定; 将所述视频局部特征中用于表征每一帧内部包含的实体间的数据流的视觉表征与所述经过所述自注意力层后的文本特征进行融合,得到融合后的第一表征; 将所述融合后的第一表征通过该跳跃连接融合模块中的前馈网络,得到带视觉模态注意力的第一文本表征; 将所述带视觉模态注意力的第一文本表征和所述视频局部特征中用于表征每一帧内部包含的实体间的数据流的视觉表征输入到该跳跃连接融合模块中的跨模态连接注意力模块,得到该跳跃连接融合模块对应的第一多模态表征; 在得到跨模态跳跃连接网络中的每个跳跃连接融合模块对应的第一多模态表征之后,将各第一多模态表征进行残差连接,以确定所述视频局部特征中每一帧与所述视频局部特征整体之间的关联关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网河北省电力有限公司信息通信分公司;北京邮电大学;国家电网有限公司,其通讯地址为:050026 河北省石家庄市裕华区富强大街10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励