Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京智慧星光信息技术股份有限公司韩勇获国家专利权

北京智慧星光信息技术股份有限公司韩勇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京智慧星光信息技术股份有限公司申请的专利基于多模态图生文大模型的视频分析方法、装置、设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119992425B

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510201429.5,技术领域涉及:G06V20/40;该发明授权基于多模态图生文大模型的视频分析方法、装置、设备是由韩勇;李青龙;骆飞;赵冲设计研发完成,并于2025-02-24向国家知识产权局提交的专利申请。

基于多模态图生文大模型的视频分析方法、装置、设备在说明书摘要公布了:本发明涉及视频分析技术领域,公开了基于多模态图生文大模型的视频分析方法、装置、设备,该方法通过对目标检测模型进行训练,将目标场景作为先验知识创建目标图像描述任务指令,从而聚焦视频中的重点场景更好的生成需要重点关注的图片描述,通过结合目标检测的方式防止生成的都是无效的文本信息,提高视频分析效率和时效性,并通过加入矩阵级噪音扰动,提高图生文大模型训练的泛化能力,同时利用交叉注意力增加图像描述任务指令和图片特征的映射,使模型能更加准确的进行图像描述,通过将两个模态输入融合对齐,将文本序列与交叉注意力之后输出矩阵的融合,使得模型能更好的理解指令并更好的生成文本描述,提高模型对视频内容理解的准确性。

本发明授权基于多模态图生文大模型的视频分析方法、装置、设备在权利要求书中公布了:1.一种基于多模态图生文大模型的视频分析方法,其特征在于,所述方法包括: 获取带有视频分析目标的场景标注的图片进行目标检测模型训练,得到识别出的目标场景,并基于所述目标场景创建图像描述任务指令; 对所述图像描述任务指令进行分词处理后通过一层神经网络编码器得到文本序列,对图片进行切分处理后的每一个图像块通过一层残差网络提取特征向量得到图像块序列,并为所述文本序列和所述图像块序列添加位置信息; 对所述文本序列和所述图像块序列进行融合对齐得到输入向量; 将所述输入向量经过N层神经网络编码器输出的矩阵通过矩阵级扰动的方式增加噪音,得到第一输出矩阵; 对所述第一输出矩阵和文本序列进行交叉注意力处理,得到第二输出矩阵; 对所述第一输出矩阵和所述第二输出矩阵进行融合输入前馈神经网络后由神经网络解码器进行解码,得到所述图片的图片描述文本; 基于所述图片描述文本与所述图片对应的预设视频分析目标描述标注利用交叉熵损失函数进行模型训练,得到训练好的图生文大模型; 将待分析视频的每一帧图像输入训练好的目标检测模型,得到识别出的目标场景,将所述目标场景对应的帧图像和图像描述任务指令输入训练好的图生文大模型,得到所述待分析视频基于目标场景的图像内容描述文本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京智慧星光信息技术股份有限公司,其通讯地址为:100080 北京市海淀区中关村大街19号办公A楼第10层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。