四川大学彭玺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉四川大学申请的专利一种对图文对错误匹配鲁棒的预训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116740736B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310931726.6,技术领域涉及:G06V30/19;该发明授权一种对图文对错误匹配鲁棒的预训练方法是由彭玺;黄振宇设计研发完成,并于2023-07-27向国家知识产权局提交的专利申请。
本一种对图文对错误匹配鲁棒的预训练方法在说明书摘要公布了:本发明公开了一种对图文对错误匹配鲁棒的预训练方法,本发明旨在针对视觉‑语言预训练所遇到的错误匹配图文对问题,设计了一套简洁、有效的鲁棒预训练方法,在不额外增加模型参数和训练开销的情况下,有效解决错误匹配图文对,提升模型的视觉‑语言表征能力,增强在诸如图像‑文本检索、图像定位、视觉问答、视觉推理等任务中的性能。首次在视觉‑语言预训练中提出负向学习,从而使预训练模型对错误匹配图文对鲁棒,提升表征能力,在下游任务获得更好性能。
本发明授权一种对图文对错误匹配鲁棒的预训练方法在权利要求书中公布了:1.一种对图文对错误匹配鲁棒的预训练方法,其特征在于,包括如下步骤: S1、初始化模型网络结构和权重参数,其中网络结构包括视觉编码器,文本编码器,多模态融合模块和动量网络; S2、将一匹图片和与图片对应的文本分别输入至对应的视觉编码器和文本编码器的进行特征提取,得到图片和文本的特征,同时将图片和与图片对应的文本输入到动量网络获取模型预测; S3、将S2得到的图片和文本的特征输入至多模态融合模块,并进行掩码语言建模目标函数计算和图片文本匹配目标函数计算,同时获得模型对图文对的预测结果,并将预测结果输入划分器作为判断图文是否匹配的依据,其中,掩码语言建模目标函数表示为: 其中,分别为输入的图片和文本,为训练数据集且,为被掩码的文本,为真实标签,为模型预测标签,CE为交叉熵函数,为交叉熵函数的期望; 图片文本匹配目标函数表示为: 其中,分别为输入的图片和文本,为训练数据集且,为被掩码的文本,为图片文本匹配任务中的真实标签,为图片文本匹配任务中的模型预测标签,为交叉熵函数的期望; 正向学习具体方式为: 其中,分别为输入的图片和文本,为当前数据batch数量大小,和分别代表真实标签和模型预测标签,为当前数量图片中的第m个图片,,指代和所对应的真实标签; 负向学习的具体方式为: 其中,为当前数量图片中的第m个图片,为为当前M数量文本中的第m个文本,为模型预测标签,为通过动量网络锐化得到的和的真实标签; S4、划分器根据模型预测结果对图文对进行噪声判断,将噪声图文对特征作为负向对比学习进行计算,非噪声图文对特征进行正向对比学习计算,两者的计算结果同时利用来自动量网络的模型预测后的计算结果作为学习目标进行图文比对; S5、将S3的中的掩码语言建模目标函数、图片文本匹配目标函数以及S4的处图文比对结果,对视觉编码器、文本编码器和多模态融合模块进行梯度优化,根据对应的权重动量跟新动量网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川大学,其通讯地址为:610064 四川省成都市武侯区一环路南一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励