首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于生成式语言模型的多模态人脸检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明属于人脸识别领域,具体涉及一种基于生成式语言模型的多模态人脸检索方法,包括:建立生成式语言模型,对生成式语言模型进行训练,向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索,得到检索结果。本发明构建了一个强大建模能力的生成式语言模型,可以获取语义更加丰富的文本表示,并通过引入特殊标记,使文本描述和图像内容可以更好的互补,增强了模型的理解能力,还实现了多任务的联合训练,包括文本生成、视觉问答、人脸检测和人脸检索,不同任务的学习可以相互促进,提高模型的泛化能力,弥补了基于生成式语言模型进行人脸检测和人脸检索任务的空白。

主权项:1.一种基于生成式语言模型的多模态人脸检索方法,其特征在于,包括:建立生成式语言模型,对生成式语言模型进行训练,向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索,得到检索结果;所述生成式语言模型,包括:文本特征提取器、图片特征提取器编码层和解码层;所述生成式语言模型的训练过程,包括:S1:将从网上获取的人脸图像文本对组成训练集,将训练集中每条数据的文本和对应的图像处理后,分别输入文本特征提取器和图片特征提取器得到各自的特征表示;所述文本特征提取器采用roberta模型;所述图片特征提取器采用resnet101模型;S2:将图像和文本的特征表示分别通过编码层进行编码处理,并计算编码后的图像与文本对比损失ITC;S3:构建图像正负样本对,将正负样本对组合一起通过编码层进行编码处理,根据编码结果计算图像文本匹配损失ITM;S4:将图像和文本的特征表示共同作为输入编码层进行编码处理,解码层基于编码结果解码生成对应的文本R,计算语言建模损失LM衡量生成的文本R与目标文本T之间的差异;S5:对ITC损失、ITM损失和LM损失进行反向梯度更新,以优化编码层和解码层的参数,完成模型的训练。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于生成式语言模型的多模态人脸检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。