阿里巴巴(中国)有限公司汪诚愚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉阿里巴巴(中国)有限公司申请的专利视觉语言理解任务处理方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116432026B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310240088.3,技术领域涉及:G06F18/214;该发明授权视觉语言理解任务处理方法和系统是由汪诚愚;唐莫鸣设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。
本视觉语言理解任务处理方法和系统在说明书摘要公布了:本公开涉及一种视觉语言理解任务处理方法和系统。所述方法基于视觉语言预训练模型操作,并且包括:构造包括多个图像‑文本对的任务训练数据;将训练数据送入预训练模型以获取位于多个图像和文本嵌入向量;将同一图像文本对的嵌入向量融合为一个融合特征;基于多个融合特征构造知识库原型矩阵;以及使用原型矩阵进行相似度匹配以获取推理结果。本发明将各种视觉语言理解任务重新表述为一个开卷的相似性匹配问题,采用知识库原型矩阵通过融合特征记录每个类别的显着特征,再使用图像‑文本对与每个类别的原型进行相似性匹配。在下游任务的微调阶段,可通过对比学习利用真实标签的隐式排序信息,从低资源训练集中提供更多监督线索。
本发明授权视觉语言理解任务处理方法和系统在权利要求书中公布了:1.一种视觉语言理解任务处理方法,所述方法基于视觉语言预训练模型VL-PTM进行操作,并且包括: 构造所述视觉语言理解任务的训练数据,所述训练数据包括多个图像-文本对以及与每个图像-文本对相对应的标签; 将所述视觉语言理解任务的训练数据送入所述VL-PTM以获取位于同一嵌入空间的多个图像嵌入向量和多个文本嵌入向量; 将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征; 基于标签对所述多个融合特征进行分类; 求取每个类别下融合特征的平均融合特征; 将每个平均融合特征作为对应类别的原型特征,以得到知识库原型矩阵; 使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果,包括: 在推理阶段,将图像和文本送入所述VL-PTM以获取待分类的图像嵌入向量和文本嵌入向量; 将所述待分类的图像嵌入向量和文本嵌入向量融合成待分类的融合特征; 将所述待分类的融合特征与所述知识库原型矩阵中每个类别的原型特征进行相似度匹配;以及 选取与所述待分类的融合特征最匹配的原型特征对应的类别作为推理结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人阿里巴巴(中国)有限公司,其通讯地址为:311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励