Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于注意力机制的面部和情景情感识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本公开涉及一种基于注意力机制的面部和情景情感识别方法,通过引入注意力机制,使模型在特征提取过程中将更多的注意力用于关键信息的学习,在两个支路的情感识别中都有效提升了模型的识别率。在面部表情识别支路,通道注意力机制的引入提升了模型对关键信息的表达能力,特征选择融合方法缓解了面部表情不确定性引起的模型表现差的问题。在情景支路使用多尺度融合的方式增强模型对图像高级语义和空间信息的表达能力,通过高级特征和低级特征的互补,提升了模型的情景情感识别效果,并在最后的对比实验中证明,本申请的情感识别方法在数据集上能够得到比其他方法更好的识别效果。

主权项:1.一种基于注意力机制的面部和情景情感识别方法,包括面部情感识别方法和情景情感设别方法;其特征在于:面部情感识别方法包括步骤:采用ResNet18网络对输入图像序列逐帧提取面部情感特征,得到面部情感特征图;将ResNet18网络提取到的面部情感特征图输入ECA模块,处理得到经过加权的面部情感特征图;经过ECA模块加权处理的面部情感特征图输入特征选择融合模块进行特征融合处理,得到面部情感识别结果Pf;ResNet18提取每一帧图像表情特征,经平均池化层和全连接层得到输出的特征图尺寸为宽W=7,高H=7,通道数C=512;将ResNet18处理输出的特征图,输入ECA模块,经过全局平均池化后,得到一组1×1×C的特征向量,使用一维卷积对特征向量进行卷积操作,卷积核k的尺寸计算公式: 其中,γ和b是为非线性映射定义的参数,分别设置为2和1,公式中|t|odd的意义是取距离t的绝对值最近的奇数,确定k值之后,通过对特征向量进行一维卷积得到与之尺寸相同的特征向量,实现局部的跨信道的信息交互;经过一个sigmoid函数之后,得到代表每个通道重要程度的权值,将其与对应的通道特征图相乘,得到经过加权的特征图,加权后的N个图像序列对应的特征向量为F={f1,...,fN};将ECA模块通过添加一个Identity连接的方式,整合到ResNet的每一个Basicblock中残差连接之前的位置;Identity连接与经过ECA模块的输出通过对应位置元素相加的方式实现连接;将特征向量F送入一层全连接层和一个sigmoid函数,生成对应每一帧图像的重要性权重,并将得到的权重与对应的特征相乘,结果为加权后的面部表情特征,其计算过程如下: 其中αn表示第n帧图像对应的权重,σ为sigmoid激活函数,Wfc为全连接层的参数矩阵,xn为第n帧图像的表情特征,为第n帧图像经过加权计算得到的表情特征;计算加权特征在时间维度上的融合特征,在初始时刻,初始状态向量h1对应第一帧的特征第n个时刻的输入为第n帧图像的特征向量,第n个时刻生成的融合向量为hn,最后一个时刻得到的状态向量即为该样本的是视频级融合向量,每个时刻的特征融合的具体计算过程如下: 在计算当前时刻的状态向量时,首先将前一时刻的状态向量与过去所有时刻的权重之和相乘,再与当前时刻输入的特征相加,得到的结果除以包括当前时刻的经过的所有时刻的权重之和,计算的结果为每个时刻的状态向量。在经过所有时刻之后,得到最终的融合特征,经过全连接层的线性映射得到28维的分类结果Pf,作为面部情感的预测结果;情景情感识别方法包括步骤:从每个视频样本中按顺序取帧图像作为输入;采用ResNeXt50网络对图像序列逐帧提取情景情感特征,得到情景情感特征图;将ResNeXt50网络提取到的情景情感特征图输入CA模块,处理得到经过加权的情景情感特征图;经过CA模块加权处理的情景情感特征图输入多尺度特征融合模块,得到情景情感输出的特征向量xt;将上述特征向量xt输入到MogrifierLSTM模块,处理得到情景情感识别结果Pg;CA模块加权处理过程为将输入特征图在每一个通道上使用两个尺寸为H,1和1,W的一维卷积,分别沿着特征图的水平方向和垂直方向进行编码,得到两个相互独立的注意力图;将两个注意力图进行拼接,得到的尺寸为C×W+H,然后使用卷积对其进行变换;经过一层1×1卷积和非线性激活函数的变换过程,得到一个经过编码的中间特征图;将中间特征图沿着空间维度,在之前拼接的位置重新为两个特征图,分别送入1×1卷积和Sigmoid激活函数,将特征图的通道数变换为与输入相同的数量;得到水平和垂直两个方向上尺寸分别为C×H×1和C×1×W的注意力图,将其分别与输入特征图在对应维度上相乘,得到经过重新标定权重特征图;所述多尺特征融合将网络不同层输出的特征融合,得到一个同时包含低级特征和高级特征的输出;将特征图经过ResNeXt网络的卷积和最大池化层之后得到四组Block,前三个Block的输出与最后一个Block输出的特征图进行拼接,得到多尺度融合后的特征图;使用MogrifierLSTM作为时序信息的特征提取模型;x-1表示当前时刻的输入特征xt,h0表示前一时刻的隐藏层状态ht-1,更新轮数r为一个可以设置的整数超参数,当其值为4或5时,交互的效果最好;当r=0时,网络结构完全等价于传统LSTM;两者交替进行交互的计算公式如下: 其中x表示t时刻的输入特征,hprev表示ht-1,更新轮数i∈[1...r],参数矩阵Qi和Ri通过随机初始化生成,两矩阵分别对前一轮的xt和ht-1实现线性变换;当轮数i为奇数时,由前一轮更新的隐藏状态与两轮前更新的输入特征进行交互,生成本轮的输入特征当轮数为偶数时,反过来做相同的变换,生成的交互结果。交互结束后,将其送入LSTM进行后续的计算;将视频序列的特征送入两层的MogrifierLSTM,得到的输出经过全连接层转换为28维特征向量Pg,作为情景情感的预测结果。

全文数据:

权利要求:

百度查询: 北京理工大学珠海学院 一种基于注意力机制的面部和情景情感识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。