首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

人脸情绪识别方法、装置、计算机设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明公开了一种人脸情绪识别方法、装置、计算机设备及存储介质,首先获取待检测视频数据,从待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对待检测人脸图像进行检测,得到待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个目标人脸图像区域对待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络‑长短时递归神经网络模型训练得到的。该方法直接对视频数据进行识别,避免了单帧画面代表的信息不足,保证了人脸情绪识别的准确性。

主权项:1.一种人脸情绪识别方法,其特征在于,包括:获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。

全文数据:人脸情绪识别方法、装置、计算机设备及存储介质技术领域本发明涉及微表情识别领域,尤其涉及一种人脸情绪识别方法、装置、计算机设备及存储介质。背景技术随着人工智能技术的不断发展,在很多领域中都会采用微表情识别技术来作为辅助工具或着辅助手段。然而目前在对人脸进行微表情检测时大多通过单幅图像或者一段视频中的单帧画面进行检测,而人脸情绪存在一个变化过程,通过单帧画面不能准确地反映视频中人脸情绪的情况,因此对人脸情绪识别的识别准确性较差。发明内容本发明实施例提供一种人脸情绪识别方法、装置、计算机设备及存储介质,以解决人脸情绪识别过程中识别准确性不高的问题。一种人脸情绪识别方法,包括:获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。一种人脸情绪识别装置,包括:待检测视频数据获取模块,用于获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;目标人脸图像区域获取模块,用于采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;待识别人脸视频数据截取模块,用于根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;人脸情绪信息获取模块,用于将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述人脸情绪识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述人脸情绪识别方法的步骤。上述人脸情绪识别方法、装置、计算机设备及存储介质中,先获取待检测视频数据,从待检测视频数据中提取待检测人脸图像;采用人脸检测算法对待检测人脸图像进行检测,得到N个目标人脸图像区域,其中,N为正整数;根据N个目标人脸图像区域对待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。通过对待检测视频数据中根据目标人脸图像区域进行待识别人脸视频数据的截取,保证了每一待识别人脸视频数据截取的准确性,并且后续进行识别的人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的,该方法直接对视频数据进行识别,避免了单帧画面代表的信息不足,保证了人脸情绪识别的准确性。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例中人脸情绪识别方法的一应用环境示意图;图2是本发明一实施例中人脸情绪识别方法的一示例图;图3是本发明一实施例中人脸情绪识别方法的另一示例图;图4是本发明一实施例中人脸情绪识别方法的另一示例图;图5是本发明一实施例中人脸情绪识别方法的另一示例图;图6是本发明一实施例中人脸情绪识别方法的另一示例图;图7是本发明一实施例中人脸情绪识别装置的一原理框图;图8是本发明一实施例中人脸情绪识别装置的另一原理框图;图9是本发明一实施例中人脸情绪识别装置的另一原理框图;图10是本发明一实施例中计算机设备的一示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例提供的人脸情绪识别方法,可应用在如图1的应用环境中,其中,客户端计算机设备通过网络与服务器进行通信。客户端将待检测视频数据发送至服务端,服务端采用人脸检测算法对待检测人脸图像进行检测,得到N个目标人脸图像区域;根据N个目标人脸图像区域对待检测视频数据进行视频截取,得到N个待识别人脸视频数据;最后将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息。其中,客户端计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种人脸情绪识别方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:S10:获取待检测视频数据,从待检测视频数据中提取至少一幅待检测人脸图像。其中,待检测视频数据为原始的视频数据,可选地,该待检测视频数据可以是客户端采用其视频采集工具实时采集的包含人物脸部图像的视频数据,也可以是客户端预先采集并保存的视频数据,或者是本地直接上传或者发送到客户端的视频数据。客户端将该待检测视频数据发送到服务端,服务端即获取到待检测视频数据。待检测人脸图像是从待检测视频数据中提取出来的包含了人物脸部图像的图像数据。可选地,待检测人脸图像为至少一幅,从待检测视频数据中提取出最能代表该待检测视频数据中人物脸部位置的图像作为待检测人脸图像。可选地,可以从待检测视频数据中提取复数幅人脸图像,再从中选取最具代表性的一幅人脸图像作为待检测人脸图像。具体地,可以从复数幅人脸图像中选取其中的人脸图像都是正面朝向的图像作为待检测人脸图像。而对人脸朝向的检测可以通过预先训练对应的神经网络模型,得到一个人脸朝向识别模型来实现。即通过将大量代表不同人脸朝向的图像数据进行标注之后输入到一个神经网络模型中进行训练,即得到人脸朝向识别模型。在一个具体实施方式中,待检测人脸图像为至少两幅,通过从待检测视频数据中提取复数幅人脸图像作为待检测人脸图像,以提高后续情绪识别的精度。优选地,可以从待检测视频数据中的起始阶段、中间阶段和阶段中选取任意两个阶段各提取一幅人脸图像作为待检测人脸图像。可以理解地,待检测人脸图像的数量可以更多,即待检测人脸图像的数量越多,后续对待检测视频数据进行情绪识别的精度就越高,然而服务端计算复杂度也会越高,具体的数量可以根据不同应用场景需要而设定。若侧重于识别精度,可以提高待检测人脸图像的数量,若侧重于识别效率,可以适当降低待检测人脸图像的数量。具体地,服务端可以通过截屏的方式从待检测视频数据中提取待检测人脸图像。可以通过OpenCV来实现获取待检测人脸图像的过程,OpenCV提供了一个简便易用的框架以提取视频文件中的图像帧。示例性地,采用VideoCapture类来进行视频读取和写入的操作。首先采用VideoCapture类中的cap=cv2.VideoCapture函数显示对应的待检测视频数据,再通过VideoCapture类中的cap.read函数按预设的帧率读取待检测视频数据,cap.read函数的返回值有两个:ret和frame。其中,ret是布尔值,如果读取帧是正确的则返回True,如果该待检测视频数据已经读取到结尾,它的返回值就为False,即可以通过cap.read函数的返回值来判断该待检测视频数据是否读取完毕。frame就是当前截取的图像,其可以为一个三维矩阵。S20:采用人脸检测算法对待检测人脸图像进行检测,得到待检测视频数据的N个目标人脸图像区域,其中,N为正整数。其中,人脸检测算法是从图像数据中选取出人脸区域的检测算法。具体地,人脸检测算法可以采用基于特征提取的人脸检测算法,也可以基于神经网络的人脸检测算法,还可以是基于深度学习的人脸检测算法。通过预设的人脸检测算法对待检测人脸图像进行检测,检测出待检测人脸图像中的人脸区域,从而得到目标人脸区域。N为待检测人脸图像中包括的目标人脸区域的个数,N为正整数。可以理解地,目标人脸区域可以为各种类型,例如:圆形、矩形或者正方形等,具体可以根据实际需要而设定。优选地,目标人脸图像区域为矩形。S30:根据N个目标人脸图像区域对待检测视频数据进行视频截取,得到N个待识别人脸视频数据。在得到N个目标人脸区域之后,分别根据每一个目标人脸区域在待检测视频数据中进行视频截取,得到N个待识别人脸视频数据。具体地,若一个目标人脸区域为矩形框A,则在待检测视频数据中将矩形框A对应位置的视频数据进行截取,得到一个待识别人脸视频数据。如此循环截取,即得到N个待识别人脸视频数据。在一个具体实施方式中,可以采用FFmpeg中的滤镜filter功能来实现对待检测视频数据的视频截取。其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用filter中的crop函数实现对待检测视频数据的视频截取。具体地,通过crop=width:height:x:y来实现根据目标人脸图像区域对待检测视频数据进行视频截取。其中,width和height表示裁剪后的尺寸,x:y表示裁剪区域的左上角坐标。即通过人脸图像区域的尺寸和左上角坐标来确定视频截取的区域,从而实现根据N个目标人脸图像区域对待检测视频数据进行视频截取。S40:将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频数据中的N个人脸情绪信息,其中,人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。其中,人脸情绪识别模型是预先训练得到的一个网络模型,用于对待识别人脸视频数据中的人脸情绪进行识别,并输出一个识别结果,即人脸情绪信息。示例性地,人脸情绪信息为开心、悲伤、恐惧、生气、惊讶、厌恶或轻蔑。人脸情绪识别模型可以判断输入的视频数据中人脸对应于预设的多种情绪的概率值,若某种情绪的概率值超过对应的预设阈值,则得到该输入视频数据对应的情绪即为人脸情绪信息。例如,在本实施例中,可以将微表情识别模型中的情绪设定为开心、悲伤、恐惧、生气、惊讶、厌恶和轻蔑7种。具体地,可以预先采集分别代表这7种情绪的大量视频数据进行标注,形成视频数据集,然后选择对应的神经网络模型或者分类器进行训练,最终得到人脸情绪识别模型。具体地,人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。卷积神经网络-长短时递归神经网络模型是由卷积神经网络模型和长短时递归神经网络模型相结合所得到的模型。可以理解地,卷积神经网络-长短时递归神经网络模型相当于卷积神经网络与长短时递归神经网络模型相连接形成的模型。卷积神经网络ConvolutionalNeuralNetwork,CNN是局部连接网络。相对于全连接网络其最大的特点就是局部连接性和权值共享性。对于一副图像中的某个像素p来说,离像素p越近的像素对其影响也就越大局部连接性。另外,根据自然图像的统计特性,某个区域的权值也可以用于另一个区域,即权值共享性。权值共享可以理解为卷积核共享,在卷积神经网络CNN中,将一个卷积核与给定的图像做卷积运算就可以提取一种图像特征,不同的卷积核可以提取不同的图像特征。由于卷积神经网络的局部连接性,使得模型的复杂度降低,可以提高模型训练的效率;并且,由于卷积神经网络的权值共享性,因此卷积神经网络可以并行学习,进一步提高模型训练效率。长短时递归神经网络long-shorttermmemory,以下简称LSTM模型是一种时间递归神经网络模型,适合于处理和预测具有时间序列,且时间序列间隔和延迟相对较长的重要事件。LSTM模型具有时间记忆功能,本实施例中采用长短时递归神经网络模型对提取到的特征进行训练,以体现数据的长期记忆能力,提高模型识别的准确率。在该步骤中,将N个待识别人脸视频数据分别输入到人脸情绪识别模型中进行识别,即得到待检测视频中的N个人脸情绪信息。在本实施例中,先获取待检测视频数据,从待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对待检测人脸图像进行检测,得到待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个目标人脸图像区域对待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。通过对待检测视频数据中根据目标人脸图像区域进行待识别人脸视频数据的截取,保证了每一待识别人脸视频数据截取的准确性,并且后续进行识别的人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的,直接对视频数据进行识别,避免了单帧画面代表的信息不足,进一步保证了人脸情绪识别的准确性。在一实施例中,待检测人脸图像为至少两幅。如图3所示,采用人脸检测算法对待检测人脸图像进行检测,得到待检测视频数据的N个目标人脸图像区域,具体包括如下步骤:S21:采用人脸检测算法对每一幅待检测人脸图像进行检测,得到每一幅待检测人脸图像的N个初始人脸图像区域。在该步骤中,先采用人脸检测算法对每一幅待检测人脸图像进行检测,得到每一幅待检测人脸图像的N个初始人脸图像区域。S22:采用人脸识别算法对每一幅待检测人脸图像的N个初始人脸图像区域进行识别,得到每一初始人脸图像区域的用户标识。其中,用户标识为用于区分不同用户的唯一性标识,具体地,用户标识可以为手机号码、身份证号码或者系统为不同用户分配的一个唯一性标识,可选地,该唯一性标识可以由数字、字母、文字或者符号中的至少一项组成。人脸识别算法是指用于对不同人脸图像进行比对,并且得到比对结果的一种识别算法。具体地,人脸识别算法可以采用基于几何特征的识别算法、基于局部特征分析的识别算法、基于特征脸的识别算法、基于神经网络的识别算法或者基于弹性模型的识别算法来实现。可选地,可以预先设置一人脸图像库,存储对应的用户标识和基准人脸图像,然后将每一幅待检测人脸图像的N个初始人脸图像区域分别和人脸图像库中的每一基准人脸图像采用人脸识别算法进行识别,将匹配度最高的基准人脸图像对应的用户标识作为对应初始人脸图像区域的用户标识。在一个具体实施方式中,对第一幅待检测人脸图像的每一初始人脸图像区域分配对应的用户标识,再将第一幅待检测人脸图像中的每一初始人脸图像区域和对应的用户标识作为一个人脸图像库。具体地,第一幅待检测人脸图像可以按照图像在待检测视频数据中的时序顺序来确定,例如,选择时序最前的待检测人脸图像作为第一幅待检测人脸图像。后续的待检测人脸图像的每一初始人脸图像区域分别和该人脸图像库进行识别,并将人脸图像库中匹配度最高的用户标识作为对应初始人脸图像区域的用户标识。可以减少对其中的一副图像的识别过程,提高了识别效率。S23:将待检测人脸图像中相同用户标识对应的初始人脸图像区域进行图像区域整合,得到待检测视频数据的N个目标人脸图像区域。在该步骤中,以用户标识为单位,将不同待检测人脸图像中相同用户标识的人脸图像区域进行图像区域整合,得到目标人脸图像区域。对N个用户标识对应的人脸图像区域进行图像区域整合之后,即得到N个目标人脸图像区域。图像区域整合是指对复数个初始人脸图像区域进行汇总计算的过程,以保证得到的目标人脸图像区域可以更好地反映对应用户的人脸信息,进而保证后续识别的准确度。具体地,可以对相同用户标识的人脸图像区域进行平均化处理。示例性地,若人脸图像区域为一矩形区域,则获取每一人脸图像区域的四个顶点坐标,并对相同位置的顶点坐标进行求和再取平均值,即得到四个平均化后的顶点坐标,根据这四个平均化后的顶点坐标,即构成目标人脸图像区域。在一个具体实施方式中,对相同用户标识的人脸图像区域进行最大化处理。示例性地,若人脸图像区域为一矩形区域,则获取每一人脸图像区域的四个顶点坐标,并对相同位置的顶点坐标进行取极限值。即对所有顶点坐标进行选取,保证获取的目标人脸图像区域最大。示例性地,若以图像左下角为原点位置,可以理解地,对于每一人脸图像区域的左上角顶点坐标,即取其中横坐标最小的值和纵坐标最大的值作为目标人脸图像区域的左上角顶点坐标。对于每一人脸图像区域的右上角顶点坐标,即取其中横坐标最大的值和纵坐标最大的值作为目标人脸图像区域的右上角顶点坐标。对于每一人脸图像区域的左下角顶点坐标,即取其中横坐标最小的值和纵坐标最小的值作为目标人脸图像区域的左下角顶点坐标。对于每一人脸图像区域的右下角顶点坐标,即取其中横坐标最大的值和纵坐标最小的值作为目标人脸图像区域的左下角顶点坐标。由此构成的目标人脸图像区域可以更好地保证人脸信息的完整性,保证后续识别的准确性。在这个实施例中,先采用人脸检测算法对每一幅待检测人脸图像进行检测,得到每一幅待检测人脸图像的N个初始人脸图像区域;再采用人脸识别算法对每一幅所述待检测人脸图像的N个初始人脸图像区域进行识别,得到每一初始人脸图像区域的用户标识;最后将待检测人脸图像中相同用户标识对应的初始人脸图像区域分别进图像区域整合,得到N个目标人脸图像区域。通过上述方式确定的目标人脸区域,可以更好地保证后续进行人脸情绪识别的准确性。在一实施例中,如图4所示,在将N个待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息的步骤之后,该人脸情绪识别方法还包括如下步骤:S50:对待检测视频中的N个人脸情绪信息进行统计,得到情绪统计信息。其中,情绪统计信息是指反映待检测视频中不同人脸对应的情绪类型的统计信息。可选地,该情绪统计信息可以反映所有不同情绪的数量,或者反映某种特定情绪的比例。具体地,在得到待检测视频数据中的N个人脸情绪信息,对这N个人脸情绪信息中每一种人脸情绪信息进行统计,得到每一种人脸情绪信息的数量,即构成情绪统计信息。S60:获取预设情绪检测规则,根据预设情绪检测规则对情绪统计信息进行检验,得到待检测视频数据的情绪识别信息。预设情绪检测规则为预先设置的一种检测规则,具体可以根据不同应用场景来自定义设置。该预设情绪检测规则可以从客户端获取,也可以从服务端内的数据库中获取。示例性地,如果需要检测待检测视频数据中开心的情绪是否超过80%,则该预设情绪检测规则即可以为检测情绪统计信息中人脸情绪信息为开心的数量是否为所有人脸情绪信息的80%以上。再根据检验结果,输出情绪识别信息,具体地,该情绪识别信息可以为达到或者未达到该指标的结果,也可以为具体情绪对应的数量,可以根据实际需要设定。在本实施例中,通过对待检测视频数据中的N个人脸情绪信息进行统计,得到情绪统计信息;并且获取预设情绪检测规则,根据预设情绪检测规则对情绪统计信息进行检验,得到待检测视频数据的情绪识别信息。根据预设情绪检测规则对情绪统计信息进行检验,得到待检测视频数据的情绪识别信息,以更直观清晰地反映对待检测视频数据地情绪识别结果。在一实施例中,如图5所示,在将N个待识别人脸视频数据输入到人脸情绪识别模型进行检测,得到待检测视频数据中的N个人脸情绪信息的步骤之前,该人脸情绪识别方法还包括如下步骤:S41:获取原始视频样本数据,其中,每一原始视频样本数据均已进行了样本标注。其中,原始视频样本数据是由互联网或第三方机构平台所公开的数据集中获取的开源视频数据,其包括各种不同人脸情绪对应地原始视频样本数据,并且每一原始视频样本数据均已进行了样本标注,例如,原始视频样本数据A对应地标注数据为“开心”。S42:对每一原始视频样本数据进行视频分帧和人脸检测处理,得到训练人脸图片。其中,训练人脸图片是对原始视频样本数据进行视频分帧和人脸检测所得到的包含人的面部特征的图片。由于本实施例中的人脸情绪识别模型是基于微表情特征进行训练的,因此,需要对原始视频样本数据进行视频分帧和人脸检测处理,获取包含人的面部特征的图片即为训练人脸图片,以便采用训练人脸图片进行模型训练,以使人脸情绪识别模型能够基于训练人脸图片提取微表情特征,并进行深度学习,提高人脸情绪识别模型的识别准确率。S43:对训练人脸图片按照预设数量进行分组,获取目标训练数据,每一目标训练数据包括连续M帧的训练人脸图片。其中,按照预设数量进行分组,获取至少一组目标训练数据,使每一组目标训练数据中包含连续M帧的训练人脸图片,以便从连续M帧的训练人脸图片中获取人脸的微表情特征变化,以使训练人脸图片具有时序性,从而增加人脸情绪识别模型的准确率。本实施例中,预设数量的范围可设置为[50,200],其原因在于,若将小于50帧的训练人脸图片作为训练集中一组训练数据,则会由于训练人脸图片过少,不能表现出一个人撒谎的面部特征的变化过程,导致人脸情绪识别模型的识别准确率不高。若将大于200帧的训练人脸图片作为训练集中的一组训练数据,则会导致模型训练的时间过长,降低模型训练的效率。本实施例中,按照每一百帧训练人脸图片作为一组训练数据进行模型训练,提高模型的训练效率和训练得到的人脸情绪识别模型的识别准确率。S44:将目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,获取人脸情绪识别模型。在得到目标训练数据之后,将目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,即获取得到人脸情绪识别模型。本实施例中,由于是对目标训练数据即连续M帧的训练人脸图片进行训练,因此需对训练人脸图片进行特征提取,而卷积神经网络模型是图片特征提取常用的神经网络,由于卷积神经网络的权值共享性和局部连接性,大大增加了模型训练的效率。而本实施例中每一帧训练人脸图片的特征与前后两帧的训练人脸图片特征具有密切联系,因此采用长短时递归神经网络模型对提取到的人脸特征进行训练,以体现数据的长期记忆能力,提高模型的准确率。由于卷积神经网络的权值共享性和局部连接性,以及长短时递归神经网络模型能够体现数据的长期记忆能力的优点,大大增加了由卷积神经网络-长短时递归神经网络模型进行训练得到的人脸情绪识别模型训练的效率以及人脸情绪识别模型的准确率。在一个实施例中,如图6所示,将目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,获取人脸情绪识别模型,具体包括如下步骤:S441:初始化卷积神经网络-长短时递归神经网络模型的模型参数。其中,初始化卷积神经网络-长短时递归神经网络模型是指预先初始化卷积神经网络模型的模型参数即卷积核和偏置以及LSTM模型中的模型参数即各层之间的连接权值。卷积核是指卷积神经网络的权值,当输入训练数据时,会乘上一个权值即卷积核,然后得到神经元的输出,它反映了训练数据的重要程度。偏置是用于更改权重乘输入的范围的线性分量。基于确定的卷积核、偏置以及LSTM模型中各层之间的连接权值,即可完成模型训练的过程。S442:采用卷积神经网络对目标训练数据进行特征提取,获取人脸特征。其中,人脸特征是采用卷积神经网络对训练集中的的目标训练数据即连续N帧的训练人脸图片进行特征提取所得到的面部特征。具体地,采用卷积神经网络对训练集中的目标训练数据进行特征提取。具体地,卷积运算的计算公式包括其中,*代表卷积运算;xj代表第j个输入特征图;yj代表第j个输出特征图;wij是第i个输入特征图与第j个输出特征图之间的卷积核权值;bj代表第j个输出特征图的偏置项。然后采用最大池化下采样对卷积后的特征图进行下采样操作以实现对特征图的降维,其计算公式为其中,yj表示下采样过程中的第i个输出谱即下采样后的特征图,下采样过程中的每一个神经元是从第i个输入谱卷积后的特征图中采用S*S的下采样框局部采样得到的,即对输入谱进行S倍下采样,其中S的具体数值可以根据实际采样需要进行设定;m与n分别表示下采样框移动的步长。S443:将人脸特征输入到长短时递归神经网络模型中进行训练,获取人脸情绪识别模型。具体地,LSTM模型是具有长时记忆能力的神经网络模型中的一种,具有输入层、隐藏层和输出层这三层网络结构。其中,输入层是LSTM模型的第一层,用于接收外界信号,即负责接收携带时序状态的人脸特征。本实施例中,由于训练人脸图片具有时序性,因此,训练人脸图片经步骤S442处理后获取的人脸特征也具有时序性,使其可应用在LSTM模型中,使得LSTM模型获取携带时序状态的人脸特征。输出层是LSTM模型的最后一层,用于输出信号,即负责输出LSTM模型的计算结果。隐藏层是LSTM模型中除输入层和输出层之外的各层,用于对输入的人脸特征进行处理,获取LSTM模型的计算结果。其中,原始风控模型是采用LSTM模型对携带时序状态的人脸特征进行多次迭代直至收敛所得到的模型。可以理解地,采用LSTM模型对提取的人脸特征进行模型训练增强了获取到的原始风控模型的时序性,从而提高了人脸情绪识别模型的准确率。本实施例中,LSTM模型的输出层采用Softmax回归模型进行回归处理,用于分类输出权重矩阵。Softmax回归模型是一种常用于神经网络的分类函数,它将多个神经元的输出,映射到[0,1]区间内,可以理解成概率,计算起来简单方便,从而来进行多分类输出,使其输出结果更准确。本实施例中,先初始化卷积神经网络-长短时递归神经网络模型,以便基于卷积神经网络模型对训练集中的目标训练数据进行训练,获取人脸特征,然后将获取到的人脸特征输入LSTM模型进行训练,该过程无需人为提取特征,只需将训练人脸图片直接输入到卷积神经网络-长短时递归神经网络模型中,即可由模型自行提取特征,提高模型训练效率。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。在一实施例中,提供一种人脸情绪识别装置,该人脸情绪识别装置与上述实施例中人脸情绪识别方法一一对应。如图7所示,该人脸情绪识别装置包括待检测视频数据获取模块10、目标人脸图像区域获取模块20、待识别人脸视频数据截取模块30和人脸情绪信息获取模块40。各功能模块详细说明如下:待检测视频数据获取模块10,用于获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;目标人脸图像区域获取模块20,用于采用人脸检测算法对所述待检测人脸图像进行检测,得到N个目标人脸图像区域,其中,N为正整数;待识别人脸视频数据截取模块30,用于根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到待检测视频数据的N个待识别人脸视频数据;人脸情绪信息获取模块40,用于将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。优选地,待检测人脸图像为至少两幅;如图8所示,目标人脸图像区域获取模块20包括初始人脸图像区域获取单元21、初始人脸图像区域识别单元22和目标人脸图像区域获取单元23。初始人脸图像区域获取单元21,用于采用人脸检测算法对每一幅所述待检测人脸图像进行检测,得到每一幅所述待检测人脸图像的N个初始人脸图像区域;初始人脸图像区域识别单元22,用于采用人脸识别算法对每一幅所述待检测人脸图像的N个初始人脸图像区域进行识别,得到每一初始人脸图像区域的用户标识;目标人脸图像区域获取单元23,用于将所述待检测人脸图像中相同用户标识对应的初始人脸图像区域进图像区域整合,得到待检测视频数据的N个目标人脸图像区域。优选地,如图9所示,该人脸情绪识别装置还包括情绪统计信息获取模块50和情绪识别信息获取模块60。情绪统计信息获取模块50,用于对所述待检测视频数据中的N个人脸情绪信息进行统计,得到情绪统计信息;情绪识别信息获取模块60,用于获取预设情绪检测规则,根据所述预设情绪检测规则对所述情绪统计信息进行检验,得到所述待检测视频数据的情绪识别信息。优选地,该人脸情绪识别装置还包括原始视频样本数据获取模块、训练人脸图片获取模块、目标训练数据获取模块和人脸情绪识别模型获取模块。原始视频样本数据获取模块,用于获取原始视频样本数据,其中,每一原始视频样本数据均已进行了样本标注。训练人脸图片获取模块,用于对每一原始视频样本数据进行视频分帧和人脸检测处理,得到训练人脸图片。目标训练数据获取模块,用于对训练人脸图片按照预设数量进行分组,获取目标训练数据,每一目标训练数据包括连续M帧的训练人脸图片。人脸情绪识别模型获取模块,用于将目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,获取人脸情绪识别模型。优选地,人脸情绪识别模型获取模块包括模型参数初始化单元、人脸特征获取单元和人脸情绪识别模型获取单元。模型参数初始化单元,用于初始化卷积神经网络-长短时递归神经网络模型的模型参数。人脸特征获取单元,用于采用卷积神经网络对目标训练数据进行特征提取,获取人脸特征。人脸情绪识别模型获取单元,用于将人脸特征输入到长短时递归神经网络模型中进行训练,获取人脸情绪识别模型。关于人脸情绪识别装置的具体限定可以参见上文中对于人脸情绪识别方法的限定,在此不再赘述。上述人脸情绪识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述人脸情绪识别方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸情绪识别方法。在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

权利要求:1.一种人脸情绪识别方法,其特征在于,包括:获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。2.如权利要求1所述的人脸情绪识别方法,其特征在于,所述待检测人脸图像为至少两幅;所述采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,具体包括如下步骤:采用人脸检测算法对每一幅所述待检测人脸图像进行检测,得到每一幅所述待检测人脸图像的N个初始人脸图像区域;采用人脸识别算法对每一幅所述待检测人脸图像的N个初始人脸图像区域进行识别,得到每一所述初始人脸图像区域的用户标识;将所述待检测人脸图像中相同用户标识对应的初始人脸图像区域进图像区域整合,得到所述待检测视频数据的N个目标人脸图像区域。3.如权利要求1所述的人脸情绪识别方法,其特征在于,在所述将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到待检测视频中的N个人脸情绪信息的步骤之后,所述人脸情绪识别方法还包括如下步骤:对所述待检测视频数据中的N个人脸情绪信息进行统计,得到情绪统计信息;获取预设情绪检测规则,根据所述预设情绪检测规则对所述情绪统计信息进行检验,得到所述待检测视频数据的情绪识别信息。4.如权利要求1所述的人脸情绪识别方法,其特征在于,在所述将N个所述待识别人脸视频数据输入到人脸情绪识别模型进行检测,得到待检测视频数据中的N个人脸情绪信息的步骤之前,所述人脸情绪识别方法还包括如下步骤:获取原始视频样本数据,其中,每一所述原始视频样本数据均已进行了样本标注;对每一所述原始视频样本数据进行视频分帧和人脸检测处理,得到训练人脸图片;对所述训练人脸图片按照预设数量进行分组,获取目标训练数据,每一所述目标训练数据包括连续M帧的所述训练人脸图片;将所述目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,获取人脸情绪识别模型。5.如权利要求4所述的人脸情绪识别方法,其特征在于,所述将所述目标训练数据输入到卷积神经网络-长短时递归神经网络模型中进行训练,获取人脸情绪识别模型,具体包括如下步骤:初始化卷积神经网络-长短时递归神经网络模型的模型参数;采用卷积神经网络对所述目标训练数据进行特征提取,获取人脸特征;将所述人脸特征输入到长短时递归神经网络模型中进行训练,获取所述人脸情绪识别模型。6.一种人脸情绪识别装置,其特征在于,包括:待检测视频数据获取模块,用于获取待检测视频数据,从所述待检测视频数据中提取至少一幅待检测人脸图像;目标人脸图像区域获取模块,用于采用人脸检测算法对所述待检测人脸图像进行检测,得到所述待检测视频数据的N个目标人脸图像区域,其中,N为正整数;待识别人脸视频数据截取模块,用于根据N个所述目标人脸图像区域对所述待检测视频数据进行视频截取,得到N个待识别人脸视频数据;人脸情绪信息获取模块,用于将N个所述待识别人脸视频数据输入到人脸情绪识别模型中进行识别,得到所述待检测视频数据中的N个人脸情绪信息,其中,所述人脸情绪识别模型为采用卷积神经网络-长短时递归神经网络模型训练得到的。7.如权利要求6所述的人脸情绪识别装置,其特征在于,所述待检测人脸图像为至少两幅;所述目标人脸图像区域获取模块包括:初始人脸图像区域获取单元,用于采用人脸检测算法对每一幅所述待检测人脸图像进行检测,得到每一幅所述待检测人脸图像的N个初始人脸图像区域;初始人脸图像区域识别单元,用于采用人脸识别算法对每一幅所述待检测人脸图像的N个初始人脸图像区域进行识别,得到每一所述初始人脸图像区域的用户标识;目标人脸图像区域获取单元,用于将所述待检测人脸图像中相同用户标识对应的初始人脸图像区域进图像区域整合,得到所述待检测视频数据的N个目标人脸图像区域。8.如权利要求6所述的人脸情绪识别装置,其特征在于,所述人脸情绪识别装置还包括:情绪统计信息获取模块,用于对所述待检测视频数据中的N个人脸情绪信息进行统计,得到情绪统计信息;情绪识别信息获取模块,用于获取预设情绪检测规则,根据所述预设情绪检测规则对所述情绪统计信息进行检验,得到所述待检测视频数据的情绪识别信息。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述人脸情绪识别方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述人脸情绪识别方法的步骤。

百度查询: 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。