天津大学刘鑫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天津大学申请的专利基于视觉语言预训练和多模态协同融合的情感识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119026071B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411001937.0,技术领域涉及:G06F18/25;该发明授权基于视觉语言预训练和多模态协同融合的情感识别方法是由刘鑫;胡卓昭;陶文婷;岳焕景;杨敬钰设计研发完成,并于2024-07-25向国家知识产权局提交的专利申请。
本基于视觉语言预训练和多模态协同融合的情感识别方法在说明书摘要公布了:本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法,属于多模态情感识别技术领域;本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练,以提高其视觉特征提取能力;再对视频提取图像帧、骨骼节点、音频,分别输送进各个模态的编码器中,提取多个模态的特征;将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合,以通过人的动作姿态等信息进一步强化视觉特征;最后通过可学习的查询向量和交叉注意力机制,将视觉特征和音频特征融合进查询向量中;预测阶段使用学习得到的查询向量特征进行情感分类。
本发明授权基于视觉语言预训练和多模态协同融合的情感识别方法在权利要求书中公布了:1.基于视觉语言预训练和多模态协同融合的情感识别方法,其特征在于,包括以下步骤:S1、使用公开的大规模视频-文本对数据集,按照视觉语言预训练范式,将该数据集的视频和对应文本分别输入进视觉编码器和文本编码器得到视觉和文本特征,计算二者的余弦相似度,并通过对称交叉熵损失函数进行梯度回传和模型参数更新,得到预训练的视觉编码器;S2、利用均匀采样方法将情感识别数据集的视频中所有帧均匀分为8组,然后从每组中随机抽取一帧图像,再进行随机裁剪,并将图像尺寸调整到224×224;S3、使用开源的OpenPose工具对S2中的帧图像提取骨骼节点,并根据人体骨骼节点的二维坐标、置信度信息生成对应的热图;S4、提取情感识别数据集视频中的音频,生成梅尔谱图,并按时间刻度均匀分成8份,使其与视觉数据的时间信息相对应;S5、将图像切分为32×32大小的块,然后输入S1中预训练好的视觉编码器中,提取视觉特征;S6、将S3中所得的骨骼节点热图和S4中所得的音频的梅尔谱图数据分别输入相应的ResNet编码器进行编码,提取特征,并通过线性层和池化层将骨骼和音频特征维度与视觉特征维度进行对齐;S7、通过交叉注意力机制将骨骼节点特征作为查询,将视觉图像特征作为键和值,对骨骼节点特征和视觉图像特征进行融合,把显著的人体动作姿态信息注入到视觉特征中,加强视觉特征的表示能力;S8、创建一组可学习的查询向量,并对该向量进行自注意力计算以增强其特征;S9、利用交叉注意力机制,将S8中创建的可学习的向量作为查询,先后把视觉特征和音频特征作为键和值,进行融合,把视觉和音频信息注入到可学习的查询向量中,再把可学习的查询向量输入进多层感知机中将特征进一步加强;S10、将所述可学习的查询向量进行平均,并通过线性层将特征维度数映射到情感类别数量;S11、将预测值与实际情感标签进行二元交叉熵损失函数的计算,通过梯度回传迭代更新除视觉编码器之外整个模型的参数,视觉编码器的参数保持其预训练权重不变;S12、训练过程结束后,在识别过程中将模型最终的输出进行Sigmoid函数计算,将计算值大于0.5的情感类别作为对应视频的最终预测情感。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。