Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多模态特征和层次特征融合的情绪识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京科技大学

摘要:本发明提供一种基于多模态特征和层次特征融合的情绪识别方法及系统,涉及人工智能技术领域。所述方法包括:采集情绪视频,并转换为包含多个图像的图像序列;对图像序列中的人脸进行检测,并提取情绪视频中的音频和文本,获取视觉模态特征、音频模态特征和文本模态特征;其中,视觉模态特征包括:视觉人脸属性特征、视觉面部动作特征、时空人体姿态特征和场景情绪词关联特征,音频模态特征包括多源音频特征,文本模态特征包括基于CLIP的文本特征;基于层次特征融合策略得到多模态融合特征;将多模态融合特征输入多层感知机预测模型,得到情绪识别类别。本发明能够提高情绪识别系统的鲁棒性和泛化性。

主权项:1.一种基于多模态特征和层次特征融合的情绪识别方法,其特征在于,包括以下步骤:S1、采集情绪视频,并转换为包含多个图像的图像序列;S2、对所述图像序列中的人脸进行检测,并提取所述情绪视频中的音频和文本,获取视觉模态特征、音频模态特征和文本模态特征;其中,所述视觉模态特征包括:视觉人脸属性特征、视觉面部动作特征、时空人体姿态特征和场景情绪词关联特征,所述音频模态特征包括多源音频特征,所述文本模态特征包括基于CLIP的文本特征;获取视觉人脸属性特征具体包括:将全景的图像序列输入FaceXFormer模型,得到每个图像的人脸属性特征;通过长短期记忆网络LSTM处理时间序列信息,得到所述视觉人脸属性特征;获取视觉面部动作特征具体包括:利用人脸检测器分割出所述图像序列中包含人脸的部分,如果未检测到人脸,则采用全景的图像代替;基于迁移学习的策略,将所述图像序列输入预训练的3D-ResNet34模型,获得所述视觉面部动作特征;获取时空人体姿态特征具体包括:将全景的图像序列输入MediaPipe提取人体关键点,包括468个脸部关键点、33个姿态关键点和左右手各21个手部关键点,对于缺失的关键点,使用0填充;将提取的脸部关键点、姿态关键点、手部关键点分别输入改进的ST-GCN网络,再将得到的特征向量连接,形成所述时空人体姿态特征;获取场景情绪词关联特征具体包括:收集整理形容情绪状态的词,得到情绪描述词列表;将所述图像序列与所述情绪描述词列表中的情绪描述词输入CLIP预训练模型,并经过图像编码器和文本编码器分别得到第一图像特征和第一文本特征,将所述第一图像特征与所述第一文本特征的向量规范化后矩阵相乘,计算两者之间的相似度,作为所述场景情绪词关联特征;获取基于CLIP的文本特征具体包括:对所述情绪视频进行转录,提取所述情绪视频中的文本;对提取的文本进行预处理;将预处理后的文本输入CLIP预训练模型的文本编码器,得到第二文本特征;将所述第二文本特征和所述第一文本特征的向量规范化后矩阵相乘,得到两者之间的相似度,作为所述基于CLIP的文本特征;获取多源音频特征具体包括:提取所述情绪视频中的音频,并计算log-mel声谱图;将log-mel声谱图分割成帧,输入预训练的VGGishCNN模型,得到VGGishCNN音频特征向量;将每个音频的多个VGGishCNN音频特征向量取平均,得到第一音频特征;利用在MSP-Podcast上微调过的Wav2Vec2-Large-Robus模型提取所述情绪视频中与情绪识别相关的音频特征,得到第二音频特征;对所述第一音频特征和所述第二音频特征进行融合,得到所述多源音频特征;S3、基于层次特征融合策略对所述视觉模态特征、所述音频模态特征和所述文本模态特征进行融合,得到多模态融合特征;其中,层次特征融合策略具体包括:在第一层中,一方面将所述多源音频特征和所述基于CLIP的文本特征进行融合,得到非视觉特征;另一方面,将所述视觉人脸属性特征、所述视觉面部动作特征和所述时空人体姿态特征进行融合,得到视觉特征;在第二层中,将所述非视觉特征和所述视觉特征进行融合;在第三层中,将第二层得到的特征与所述场景情绪词关联特征进行融合,最终得到多模态融合特征;S4、将所述多模态融合特征输入多层感知机预测模型进行情绪识别,得到对应所述情绪视频的情绪识别类别。

全文数据:

权利要求:

百度查询: 北京科技大学 基于多模态特征和层次特征融合的情绪识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。