西安交通大学徐亦飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安交通大学申请的专利基于多模态多尺度交叉注意力的目标计数方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119785057B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411862383.3,技术领域涉及:G06V10/74;该发明授权基于多模态多尺度交叉注意力的目标计数方法及系统是由徐亦飞;韩忠昱;郏正慧;郭腾;徐浩宇;李思奇;尉萍萍;饶元设计研发完成,并于2024-12-17向国家知识产权局提交的专利申请。
本基于多模态多尺度交叉注意力的目标计数方法及系统在说明书摘要公布了:本发明公开了一种基于多模态多尺度交叉注意力的目标计数方法及系统,包括:基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵;进而建立基于多分类交叉熵的对比学习损失,以增强块级视觉向量在视觉‑语言模型下的文本配对能力。同时构建包含类型语义信息和数量语义信息的文本嵌入、以及与之维度相同的视觉嵌入张量,经过缩放点积模型的计算,输出注意力分数,并最终得到块级视觉嵌入在文本嵌入向量空间的特征表示。构建了基于双分支Cross‑ViT结构多尺度视觉特征交互模块,实现不同尺度视觉特征间的访问和融合。本发明增强了模型在复杂场景下对不同尺度的目标细节和上下文信息的特征提取性能,为目标计数的下游密度图回归任务提供了良好的视觉编码。
本发明授权基于多模态多尺度交叉注意力的目标计数方法及系统在权利要求书中公布了:1.基于多模态多尺度交叉注意力的目标计数方法,其特征在于,包括: 将采集的图像通过视觉编码器进行分割,得到若干个块级视觉特征,进而得到块级视觉嵌入向量;每个块级视觉嵌入向量均各自对应一个文本嵌入向量; 基于块级视觉嵌入向量和文本嵌入向量,构建相似度矩阵; 基于所构建的相似度矩阵和多分类交叉熵损失函数,获取对齐块级视觉特征与数量文本嵌入的对比损失,进而得到最优化的微调视觉编码器;所述数量文本嵌入为将文本嵌入向量中与数量相关的向量; 对于给定包含有若干同类特定对象的图片,通过基于CLIP ViT的微调视觉编码器和文本编码器Text Encoder产生维度相同的一组粗糙的视觉嵌入特征及一组包含类型语义信息和数量语义信息的文本嵌入向量; 将视觉嵌入特征和文本嵌入向量输入至基于交叉注意力机制的文本‑图像交叉交互网络TICM中,得到从视觉模态特征向文本模态特征的跨模态映射,实现多模态信息的联合表示; 基于双分支Cross‑ViT结构的图像‑图像交叉交互模块IICM,融合多尺度视觉嵌入特征,输出目标的计数结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市碑林区咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。