一种基于生成式语言模型的多模态人脸检索方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明属于人脸识别领域，具体涉及一种基于生成式语言模型的多模态人脸检索方法，包括：建立生成式语言模型，对生成式语言模型进行训练，向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索，得到检索结果。本发明构建了一个强大建模能力的生成式语言模型，可以获取语义更加丰富的文本表示，并通过引入特殊标记，使文本描述和图像内容可以更好的互补，增强了模型的理解能力，还实现了多任务的联合训练，包括文本生成、视觉问答、人脸检测和人脸检索，不同任务的学习可以相互促进,提高模型的泛化能力，弥补了基于生成式语言模型进行人脸检测和人脸检索任务的空白。

主权项：1.一种基于生成式语言模型的多模态人脸检索方法，其特征在于，包括：建立生成式语言模型，对生成式语言模型进行训练，向训练完成后的生成式语言模型输入行人图片和对应的描述性文本进行人脸检索，得到检索结果；所述生成式语言模型，包括：文本特征提取器、图片特征提取器编码层和解码层；所述生成式语言模型的训练过程，包括：S1:将从网上获取的人脸图像文本对组成训练集，将训练集中每条数据的文本和对应的图像处理后，分别输入文本特征提取器和图片特征提取器得到各自的特征表示；所述文本特征提取器采用roberta模型；所述图片特征提取器采用resnet101模型；S2：将图像和文本的特征表示分别通过编码层进行编码处理，并计算编码后的图像与文本对比损失ITC；S3：构建图像正负样本对，将正负样本对组合一起通过编码层进行编码处理，根据编码结果计算图像文本匹配损失ITM；S4：将图像和文本的特征表示共同作为输入编码层进行编码处理，解码层基于编码结果解码生成对应的文本R，计算语言建模损失LM衡量生成的文本R与目标文本T之间的差异；S5：对ITC损失、ITM损失和LM损失进行反向梯度更新，以优化编码层和解码层的参数，完成模型的训练。

全文数据：

权利要求：

百度查询：重庆邮电大学一种基于生成式语言模型的多模态人脸检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冶金能源控制系统

下一篇：一种用于纸质食品接触材料中3-MCPD选择性检测的分子印迹聚合物基石英晶体微天平纳米传感器及其制备与应用

相关技术

一种冶金能源控制系统

一种用于纸质食品接触材料中3-MCPD选择性检测的分子印迹聚合物基石英晶体微天平纳米传感器及其制备与应用

一种通用型移动电池储能柜

一种先进在线能源监控与诊断系统

一种可以加载任意弯矩的多自由度加载机构

一种PCB制程清洗用高浓度臭氧水发生装置

用于光电器件的有机分子

基于数字孪生的数据智能可视化方法

离心旋转式钼精粉混合给料机

定子铁芯及定子铁芯的制造方法

用于CRISPR-CAS系统的电穿孔增强剂

一种基于智能家居的投影设备视觉信号处理系统及方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于生成式语言模型的多模态人脸检索方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务