成都数智风科技有限公司彭泓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都数智风科技有限公司申请的专利一种多维度跨模态视频内容结构化整理系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121151652B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511676281.7,技术领域涉及:H04N21/854;该发明授权一种多维度跨模态视频内容结构化整理系统是由彭泓;张昱;王俊升;张雨奇;伍超源设计研发完成,并于2025-11-17向国家知识产权局提交的专利申请。
本一种多维度跨模态视频内容结构化整理系统在说明书摘要公布了:本发明公开了一种多维度跨模态视频内容结构化整理系统,包括视频输入接口、语音识别与语义提取模块、视觉镜头分析模块、人脸识别与属性标注模块、多模态信息融合与时间对齐模块和结构化输出模块。本发明的有益效果是:通过多模态信息融合与时间对齐模块实现了多维度跨模态信息的深度融合与精确对齐,克服了信息孤立问题,建立了语音、视觉和人物之间的强关联,提高了视频内容理解的全面性,同时通过结构化输出模块统一格式进行输出,极大地提高了下游应用的便捷性,显著降低了人工成本。
本发明授权一种多维度跨模态视频内容结构化整理系统在权利要求书中公布了:1.一种多维度跨模态视频内容结构化整理系统,其特征在于:包括视频输入接口、语音识别与语义提取模块、视觉镜头分析模块、人脸识别与属性标注模块、多模态信息融合与时间对齐模块和结构化输出模块; 所述语音识别与语义提取模块用于接收经所述视频输入接口输入的待处理视频,并对视频的音频流和语音文本进行分析; 所述视觉镜头分析模块用于识别独立的视频镜头; 所述人脸识别与属性标注模块用于定位画面中的所有人脸,并进行身份识别,标注出镜人物身份; 所述多模态信息融合与时间对齐模块用于接收时间戳信息,并进行融合对齐处理; 所述结构化输出模块用于将融合对齐后的镜头级信息按照预设的统一格式进行输出; 所述人脸识别与属性标注模块的处理步骤为: S31:在视频关键帧或所有帧上运行人脸检测算法检测并定位画面中出现的所有人脸,并记录其在视频中的时间戳范围; S32:将检测到的人脸特征与人物数据库进行比对,识别人物身份; S33:记录已识别人物的出镜时间; 所述多模态信息融合与时间对齐模块进行融合对齐处理包括置信度评估、语义上下文关联和对齐处理; 置信度评估具体为:接收来自所述语音识别与语义提取模块、所述视觉镜头分析模块和所述人脸识别与属性标注模块的处理信息,通过ASR系统为信息提供置信度评分,并为信息赋予权重计算融合置信度, ; 其中,、和均为权重参数,且,为语音识别输出置信度,为人脸识别相似度,为视觉标签分类置信度; 语义上下文关联具体为:基于语义段落信息和镜头边界信息建立跨模态的语义关联; 对齐处理具体为:计算语义段落时间段和镜头时间段两者的时域重合比, ; 其中,为语义段落时间段,为镜头时间段,为语义段落的起始时间,为语义段落的结束时间,为镜头片段的起始时间,为镜头片段的结束时间; 当时,则认为语义段落时间段与镜头时间段相关,其中,为阈值参数; 为每个镜头生成融合语义匹配得分, ; 其中,为语音描述与视觉标签之间的语义相似度,为语音内容中提到的语义与人脸识别出的具体人物之间的语义相关性,为人物与当前镜头场景之间是否关联,,为融合权重; 所述结构化输出模块输出的字段包括镜头编号、镜头开始时间、镜头结束时间、语音摘要、视觉描述、场景分类和出现人物列表。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都数智风科技有限公司,其通讯地址为:610000 四川省成都市武侯区武青南路51号3栋5层501号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励