首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

人脸表情识别方法和计算机可读介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:长春大学

摘要:本发明公开了一种人脸表情识别方法和计算机可读介质,属于人脸表情识别技术领域,本发明通过改进的高效多尺度注意力模块捕获多尺度的表情特征,实现更丰富的特征集成,增强了网络对于关键表情区域的感知,提高了特征提取能力。同时,为了进一步提高模型的性能,本发明设计了PatchDropping模块,旨在模仿人类视觉系统对局部特征的注意力分配机制,引导网络注重于最具区分性的特征,减少不相关特征的影响,并且直观地降低了计算成本。

主权项:1.一种人脸表情识别方法,其特征在于,包括以下步骤:步骤S1、根据公开的人脸表情数据集,构建训练集、验证集和测试集;步骤S2、对已构建的训练集、验证集和测试集进行预处理,得到满足模型需要的人脸图像;步骤S3、构建基于多尺度特征融合和分块去除的混合视觉Transformer的表情识别网络模型,模型网络:初始层是一个3×3标准卷积层,然后是特征提取网络,最后通过全局池化层和全连接层获取到最终的识别预测;步骤S4、利用构建的训练集对基于多尺度特征融合和分块去除的混合视觉Transformer的表情识别网络模型进行监督训练,直到网络收敛到最优性能;步骤S5、将收敛后的基于多尺度特征融合和分块去除的混合视觉Transformer的表情识别网络模型在构建的测试集上进行测试,根据识别准确率,识别混淆矩阵评估网络模型的性能;在步骤S3中,所述特征提取网络按照数据处理顺序依次设置有第一MobileNetV2模块、第二MobileNetV2模块、第三MobileNetV2模块、第四MobileNetV2模块、第一MobileViTblock模块、第五MobileNetV2模块、第二MobileViTblock模块、第六MobileNetV2模块和第三MobileViTblock模块,且第一MobileNetV2模块、第二MobileNetV2模块、第三MobileNetV2模块、第四MobileNetV2模块、第五MobileNetV2模块和第六MobileNetV2模块网络结构一致,第一MobileViTblock模块、第二MobileViTblock模块和第三MobileViTblock模块网络结构一致;特征图在MobileNetV2模块中的处理过程如下:输入到MobileNetV2模块中的特征图首先经过逐点卷积来扩展维度;接着,使用深度可分离卷积独立处理每个通道,编码空间特征;然后,应用一维卷积缩减特征图的维度;之后,将特征图输入到改进的高效多尺度注意力模块,增强空间语义特征;最后,将优化后的特征输入倒残差模块,通过捷径连接保留低级特征,其中改进的高效多尺度注意力模块是在已有高效多尺度注意力模块EMA的尾部,通过计算特征图在每个通道上的空间平均值,得到一个代表该通道整体水平的值;接下来,对于每个通道内的每个像素位置,计算其值与对应通道均值的差的平方,测量每个像素值相对于通道均值的偏离程度;特征图在MobileViTblock模块中的处理过程如下:输入MobileViTblock模块中的特征图,首先通过一个3×3深度可分离卷积对特征图进行局部特征提取,然后经过一个1×1卷积调整特征图的通道数使其从C变为d,接着通过具有Unfold-TPD-Fold机制的Transformer模块进行全局特征的提取并使用1×1卷积将特征图的通道数调整回C,最后利用shortcut残差分支将特征图与原始的输入图沿着通道方向进行拼接并通过一个3×3卷积融合这些特征得到最终的全局特征输出;通过具有Unfold-TPD-Fold机制的Transformer模块进行全局特征的提取过程为:首先通过Unfold操作将特征图展开成多个局部窗口,每个窗口包含局部的空间信息;然后,展开的局部窗口作为输入,经过TPD进行全局特征的建模;最终,通过Fold操作将处理后的特征图重新折叠回原来的空间维度;其中TPD是在已有Transformer中嵌入PatchDropping模块,特征图输入到TPD中首先经过归一化后进入多头自注意力机制中,该机制通过多个注意力头并行计算自注意力,每个头有独立的参数;具体输入通过三个线性变换分别映射到查询Query、键Key和值Value向量,线性变化过程为Q=XWQ、K=XWK、V=XWV,其中X表示输入的特征图,Q、K和V分别代表查询Query、键Key和值Value向量,WQ、WK和WV分别是查询Query、键Key和值Value向量对应的权重矩阵;查询和键之间的点积用于计算注意力权重,然后通过softmax函数归一化;这个权重应用于值向量,得到每个头的输出;所有头的输出拼接在一起,通过一个线性变换得到多头自注意力的最终输出,线性变换过程为:MultiHeadQ,K,V=Concathead1,...,headi,...,headhWo,其中,Wo是线性变换矩阵,得到最终的输出;接着通过PatchDropping模块随机对patch进行丢弃,之后应用残差连接;经过PatchDropping模块后的数据通过Norm层后输入到MLP进行非线性变换和增强,之后再次应用残差连接。

全文数据:

权利要求:

百度查询: 长春大学 人脸表情识别方法和计算机可读介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。