中国人民解放军92493部队信息技术中心马跃飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军92493部队信息技术中心申请的专利多模态信息抽取指令数据集的构建方法、抽取模型及抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120296384B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510357903.3,技术领域涉及:G06F18/213;该发明授权多模态信息抽取指令数据集的构建方法、抽取模型及抽取方法是由马跃飞;岳明桥;庞亮;胡永涛;翟一琛;陈阳;常秀丰;龚昕;王棚;桑耘设计研发完成,并于2025-03-25向国家知识产权局提交的专利申请。
本多模态信息抽取指令数据集的构建方法、抽取模型及抽取方法在说明书摘要公布了:本发明涉及计算机视觉技术领域,公开一种多模态信息抽取指令数据集的构建方法、抽取模型及抽取方法。构建方法包括:针对不同模态数据根据抽取任务设计不同提示词模板;发送信息抽取请求,调用开源多模态大模型以获取多模态数据的实体、关系、属性、事件信息;运行提示词模板的执行程序,输出初始Json结果;筛选出符合标准的Json结果为初筛Json结果;从初筛Json结果中筛选出符合标准的Json结果为校核后的Json结果,由多模态数据对应的多个校核后的Json结果构成多模态信息抽取指令数据集。多模态信息抽取模型应用多模态信息抽取指令数据集且基于有监督指令微调训练获得。本发明能纾解多模态信息抽取指令数据集不足及多模态大模型幻觉问题,提高多模态信息抽取的准确率。
本发明授权多模态信息抽取指令数据集的构建方法、抽取模型及抽取方法在权利要求书中公布了:1.一种多模态信息抽取系统,其特征在于,多模态信息抽取系统包括多模态信息抽取模型,所述多模态信息抽取模型应用多模态信息抽取指令数据集,且基于有监督指令微调训练获得;多模态信息抽取模型包括: 视觉编码器,用于接收原始图像或视频关键帧序列并输出视觉块特征,视觉编码器能够将每个视觉块进行嵌入并提取图像特征以获得特征向量; 文本编码器,将提示词模板嵌入到与特征向量相同维度的向量空间,获得与特征向量维度相同的查询向量,并输入至堆叠式注意力层; 视觉语言连接器,将视觉编码器输入的视觉块特征嵌入至大语言模型的向量空间,用于对齐视觉和文本模态; 堆叠式注意力层,接收视觉语言连接器输入的与文本模态对齐的视觉块特征,以及文本编码器输入的查询向量,并计算查询向量和视觉块的注意力分数,搜索与提示词强相关的区域;其中,通过如下方式计算注意力分数:将视觉块特征通过全连接层映射到维向量空间,在维向量空间,查询向量和视觉块特征相加,计算获得隐藏层特征向量;所述隐藏层特征向量通过全连接层映射到分布式空间,并计算视觉块的注意力概率;使用多层注意力层,并计算并更新每一层注意力层的注意力分数,最后一层注意力层仅需要分配权重给视觉块的特征向量;其中,通过如下方法计算隐藏层特征向量:;其中,为隐藏层特征向量,是视觉块特征向量是视觉特征的维度,是视觉块的数量,是查询向量;是映射矩阵,是偏置量,是维向量,表示每个视觉块的注意力概率;通过如下方式计算视觉块的注意力概率:,其中,是映射矩阵,是偏置量;对于第k层注意力层计算公式如下所示: 其中在第一层初始化为,是注意力层数,初始化方式如下述公式所示: 在每一层使用上述迭代公式更新; 以及大语言模型,为多模态信息抽取模型的基础层,使用tokenizer和embedding层分词文本并将其映射到大语言模型的输入向量空间;通过堆叠式注意力网络增强模态融合策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军92493部队信息技术中心,其通讯地址为:125001 辽宁省葫芦岛市龙港区海滨南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励