Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京信息工程大学周媛获国家专利权

南京信息工程大学周媛获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京信息工程大学申请的专利一种多维增强的开放词汇视频实例分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120913135B

龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511456527.X,技术领域涉及:G06V20/40;该发明授权一种多维增强的开放词汇视频实例分割方法是由周媛;黄文韬设计研发完成,并于2025-10-13向国家知识产权局提交的专利申请。

一种多维增强的开放词汇视频实例分割方法在说明书摘要公布了:本发明提供了一种多维增强的开放词汇视频实例分割方法,包括:步骤1,通过数学建模与分析,提出一种新型的开放词汇分割思想;步骤2,对用户输入的视频进行预处理,进行帧采样,并通过分别强化类别文本和图像特征、查询向量的交互,在Transformer架构中实现类别相关的分割;步骤3,采用实例驱动的TopK时序匹配策略,提高跨帧匹配的稳定性与准确性;步骤4,通过多尺度特征融合提升类别识别能力,优化目标分类。本发明能够高效进行开放词汇视频实例分割,并广泛应用于视频监控、自动驾驶、视频索引等领域,推动视频理解与推理技术的发展。

本发明授权一种多维增强的开放词汇视频实例分割方法在权利要求书中公布了:1.一种多维增强的开放词汇视频实例分割方法,其特征在于,包括如下步骤: 步骤1,对开放词汇视频实例分割任务进行数学建模与分析; 步骤2,建立类相关分割模型,对于用户输入的视频进行预处理,对视频进行帧采样;所述类相关分割模型按照用户输入的任意类别名称加强每帧获取得到的图像特征以及分割过程中用于表示物体的查询query;根据强化的图像特征和查询query在transformer解码器进行交互来实现类别相关的分割; 步骤3,执行实例驱动的TopK时序匹配策略; 步骤4,通过多尺度特征融合提升对类别的识别能力,优化目标分类; 步骤2包括: 首先用户输入类别名称描述为自然语言字符串,通过预训练模型CLIP的文本编码器映射为一个多维语义嵌入向量: , 其中,表示文本编码器函数,是根据输入的自然语言类别名称获取得到的文本特征,初始获取的维度为,其中为视频的总帧数,X为输入的类别数量,C为文本编码器获取得到的特征维度通道数,初始输入的每个类别获取得到的特征向量的维度为1*C,获取完X个类别的特征向量后拼接得到每一帧的总的文本特征,维度为X*C,最后复制帧,得到最终的文本特征,维度为*X*C; 将输入视频按1帧秒的速率均匀采样转化为图像序列,将第t帧图像输入预训练模型CLIP的图像编码器,提取多尺度图像特征: , 其中,表示预训练模型CLIP的图像编码器,表示第s层的图像特征,s表示特征的尺度层次,S为总层数; 将获取的图像特征送入像素解码器获取不同尺寸的图像的像素级图像特征: , 其中,表示像素解码器,用于获取像素级图像特征,表示获取的第s层的像素级图像特征; 引入一种以视觉为主导的语义增强机制,基于自然语言语义嵌入对像素特征进行类别引导的跨模态增强,具体包括以下步骤: 执行像素主导的交叉注意力Cross-Attention操作,以像素特征作为查询Q和键K,文本语义作为值V,进行跨模态注意力增强: , , 其中d表示的是查询Q的维度;softmax是归一化函数,用于将的相似性分数转化为概率分布,使每个像素位置对文本语义的关注权重在0~1之间;表示通过交叉注意力获取得到的需要融合增强的信息;T表示转置; 分别为查询Query的映射矩阵、键Key的映射矩阵和值Value的映射矩阵;每层像素特征都单独计算得到,然后将与原始对应层的像素级特征进行相加并且进行门控融合: , , , 其中是融合了的中间特征;表示的是门控因子;sigmoid是归一化函数; MLP为多层感知机结构;为映射函数;为语义增强的第s层像素级图像特征; 初始化可学习的查询向量,与文本语义向量进行融合,将与进行融合得到具有语义指向性的融合查询向量; 将语义增强后的像素特征图,与融合查询向量一并送入Transformer解码器: , 其中;表示在Transformer解码器中的第t帧第i个实例的特征嵌入向量;表示第t帧中第i个对象的掩码;表示第t帧第i个实例的掩码与真实目标掩码的交并比评分;对象置信度评分来自Transformer解码器,Transformer解码器会输出得分,作为对象置信度评分; 步骤3包括: 步骤3-1,在视频序列的首帧中,依据类相关分割模型的初始预测结果得到对象实例,对所有对象实例的是否是一个对象进行评价,生成每个对象实例的对象置信度评分,并通过动态置信度过滤机制筛选出一组具有显著前景特征的实例表示,将具有显著前景特征的对象实例的注册进时序记忆存储单元MemoryBank,作为后续帧匹配的参照模板; 步骤3-2,在随后的帧处理过程中,先通过动态置信度筛选出当前帧符合的对象实例,将时序记忆存储单元MemoryBank中保留的高置信度实例表示与当前帧筛选的符合条件的实例表示进行一对一匹配,并通过最小代价优化算法执行跨帧匹配操作,确保实例索引的一致性和实例轨迹的完整性; 步骤3-3,如果当前帧中存在未被成功匹配但对象置信度仍显著的对象实例,通过对象实例的对象置信度评分判定对象实例为可能的新实例,并将增量方式添加至时序记忆存储单元MemoryBank,以支持视频中对象实例的动态扩充;所述对象置信度仍显著是指对象置信度评分大于动态置信度阈值; 步骤3-4,当时序记忆存储单元MemoryBank的存储容量达到上限时,执行混合替换策略,优先保留高置信度实例,并移除在连续两帧以上未成功匹配的陈旧记录。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:211899 江苏省南京市江北新区华富路1号数智溪谷4号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。