买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明公开了一种多模态场景自适应提示的开放词汇目标检测方法及装置。该方法根据输入实例动态选择相应的场景提示,针对不同的训练类别自适应地学习这些场景提示,实现对类别知识的自适应迁移。通过在融合过程中结合位置和文本信息,可以动态学习视觉提示和区域提示,所获得的区域特征可以具有更强的可移动性,能够提高目标检测模型对未知类别的分类精确度。
主权项:1.一种多模态场景自适应提示的开放词汇目标检测方法,其特征在于包括如下步骤:1利用场景自适应提示生成器构造多模态提示,根据输入实例动态选择针对不同的训练类别的场景提示,自适应地学习所述场景提示以得到场景提示集合;为每个类别选择合适的提示,得到自适应多模态提示损失函数;2利用区域提示符从全局特征中提取位置信息,然后将所述位置信息转移到区域特征;同时通过网络映射将文本提示整合到视觉特征中,以实现在区域层面上的视觉和语言知识的对齐,得到区域感知多模态损失函数;3结合所述自适应多模态提示损失函数和所述区域感知多模态损失函数得到总体训练函数,通过经过总体训练函数训练后的目标检测模型进行开放词汇目标检测。
全文数据:
权利要求:
百度查询: 北京航空航天大学 多模态场景自适应提示的开放词汇目标检测方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。