北京邮电大学王子逸获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京邮电大学申请的专利面向多模态大模型的关键帧实时提取系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120711204B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510738814.3,技术领域涉及:H04N21/2343;该发明授权面向多模态大模型的关键帧实时提取系统及方法是由王子逸;金浩楠;张芮;张蓝姗;王文东设计研发完成,并于2025-06-04向国家知识产权局提交的专利申请。
本面向多模态大模型的关键帧实时提取系统及方法在说明书摘要公布了:本发明提出一种面向多模态大模型的关键帧提取方法,通过用户端与云端的协同计算实现多模态大模型视频数据处理效率与生成质量的提升。其技术方案包括:1用户端应用提交数据后,接口服务对数据进行初步处理,并将视频帧与音频帧按时序划分并归并为数据片;2在用户端每个数据片内动态提取n个关键视频帧,并与对应的音频帧压缩打包传输至云端;3云端对多模态数据进行编码融合后输入大模型生成结果;4云端评估生成质量,用户端根据生成质量和响应时延自适应调整数据预处理及关键帧提取参数配置。本发明通过降低冗余数据传输与动态优化计算和传输资源,显著提升多模态大模型云服务的响应速度与输出质量。
本发明授权面向多模态大模型的关键帧实时提取系统及方法在权利要求书中公布了:1.面向多模态大模型的关键帧提取方法,其特征在于,包括以下步骤: 步骤一,搭建多模态大模型云服务架构,端设备部署用于预处理和提取关键帧的服务接口,云设备部署多模态大模型,用于执行数据编码、模态融合及推理任务; 步骤二,端设备的服务接口接收多模态数据流,并进行预处理,得到文本数据和包含音视频数据的数据片; 步骤三,对每个视频数据片通过视频关键帧提取算法提取其中的关键帧,将仅包含关键帧的数据片与音频数据片打包传输给云设备; 基于相邻帧差的关键帧选择算法,具体如下: 步骤301,对某一个数据片,初始化关键帧数量及数据片边界索引列表,递归划分数据 片并分配关键帧数量,直至第一个子数据片仅需选择一个关键帧,并使用列表和来记录各个子数据片内需要选择的关键帧数量以及该子数据片的边界索引; 步骤302,通过秘书算法基于相邻帧帧差从仅需选择一个关键帧的子数据片中选取出关键帧,并确定初始阈值; 步骤303,依照中记录的需要选取的关键帧数量从小到大的顺序依次处理剩余的 子数据片,并在每个子数据片完成关键帧选取后,更新阈值,直至所有子数据片处理完毕; 对于每个子数据片,依次计算相邻帧帧差,触发关键帧选取的机制为:1.当前帧的帧差值超过阈值,且未达到该子数据片所需的关键帧数量,则选择当前帧为关键帧,当达到需要的关键帧数量后,舍弃剩余帧;2.如果剩余帧的数量等于尚未选择的关键帧数量,此时若不选择帧,将导致关键帧数量不足,则将所有剩余帧选为关键帧; 阈值更新机制为:当前子数据片完成关键帧选取,设下一个子数据片需选择个关键 帧,则从已处理帧的帧差值中选取第大的值作为新的阈值; 步骤304,重复步骤301~303,直至所有数据片均完成关键帧的选取; 步骤305,在每个数据片内提取关键帧后,将关键帧替换原数据片的视频帧部分,即可得到消除语义重复视频帧的数据片; 步骤四,端设备将每个仅包含关键帧的数据片依序上传至云设备,并与音频数据和文本数据同时输入多模态大模型中进行融合,将生成内容传回端设备;同时多模态大模型对生成内容进行评估,将评估结果传输给端设备的优化器; 步骤五,端设备优化器综合响应时延和生成质量,调整预处理的配置以及关键帧提取算法中指定的关键帧数量; 步骤六,根据调整后的预处理的配置以及关键帧数量返回步骤二,重复执行步骤二至步骤五,直至数据处理完成。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励