买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京科技大学;青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心)
摘要:本发明公开了一种融合时空图注意力网络的多模态人格预测方法和系统,涉及情感计算技术领域,包括:基于卷积神经网络模型,提取目标视频中的场景时空外观特征、人脸时空外观特征和音频特征;基于图注意力网络模型,提取目标视频中的人脸时空几何结构特征;基于预训练语言模型,提取目标视频的文本特征;将场景时空外观特征、人脸时空外观特征、人脸时空几何结构特征、音频特征和文本特征进行特征融合,得到多模态融合特征;基于多模态融合特征和训练好的人格预测模型,对被试者进行人格预测,得到被试者的人格特质分数。本发明缓解了现有技术中存在的对人脸的特征为挖掘不细致、模态间权重分配不合理的技术问题。
主权项:1.一种融合时空图注意力网络的多模态人格预测方法,其特征在于,所述方法包括:基于第一卷积神经网络模型,提取目标视频中的场景时空外观特征;所述目标视频为包括被试者对话的视频;基于第二卷积神经网络模型,提取所述目标视频中的人脸时空外观特征;基于图注意力网络模型,提取所述目标视频中的人脸时空几何结构特征;基于第三卷积神经网络模型,提取所述目标视频的音频特征;基于预训练语言模型,提取所述目标视频的文本特征;将所述场景时空外观特征、所述人脸时空外观特征、所述人脸时空几何结构特征、所述音频特征和所述文本特征进行特征融合,得到多模态融合特征;基于所述多模态融合特征和训练好的人格预测模型,对所述被试者进行人格预测,得到所述被试者的人格特质分数;所述第一卷积神经网络模型为ResNet-18网络和BiGRU网络相结合的卷积神经网络模型,选用ResNet-18网络为CNN骨干,并将其用于提取单帧场景图像特征模型,ResNet-18网络使用在places365场景分类数据集预训练后的权重进行初始化,删除了ResNet-18网络的最后两层,并使用layer3和layer4输出特征,将通过最大池化和平均池化操作获得的第四个特征连接起来,这就产生了描述每个场景帧的1536维场景特征,在此之上,放置了两个BiGRU层,包括dropout层;人脸时空几何结构特征提取依赖图卷积神经网络,从关键点位置特征和局部视觉特征中提取时空图结构特征,对于输入的关键点位置和关键点特征,分别构建两个独立的图注意力网络模型分别提取关于位置的图结构特征以及关于关键点局部外观的图结构特征,构建了一种时空图卷积模块,包含一个空间模块和一个时间模块,其中,一个空间模块又包含1个空间图卷积层、1个批样本归一化层、1个激活层,一个时间模块包含1个卷积层、1个批样本归一化层、1个激活层,关键点位置坐标输入经过2个连续的时空图卷积模块,产生位置时空几何结构特征维度为[b=1,c=64,t=16,n=20],此处b表示一批参与训练的样本的大小,c表示图中每个节点产生的特征维度,t表示帧数,n表示每帧人脸中取得20个关键点,关键点外观特征输入经过3个连续的时空图卷积模块,产生外观时空几何结构特征的维度为[b=1,c=128,t=16,n=20],将得到的2个时空几何结构特征在通道维度进行结合得到时空几何结构特征[b=1,c=192,t=16,n=20],之后创建一个图卷积模块对串联后的时空几何结构特征进一步处理,图卷积模块里包含1个空间模块、1个通道注意力模块、1个时间模块,1个帧间注意力模块,通道注意力模块的引入使提取时空特征对不同的特征有不同的关注,更加关注更重要的特征,帧间注意力模块的引入使模型更加关注更重要的帧,经过图卷积模块处理之后得到的特征维度还是[b=1,c=192,t=16,n=20],对此特征在空间维度用求最大值和均值的操作,并把2个特征在特征的维度结合,得到特征为[b=1,c=384,t=16,n=1],去除b维度之外的其他为1的维度,得到的人脸时空图几何结构特征为维度为[b=1,t=16,c=384];所述第三卷积神经网络模型包括VGGish模型;使用基于预训练的Roberta模型的分词器RobertaTokenizer来处理文本;人格预测模型包括多层感知器,将获得的五个特征向量连接成一个特征向量,然后将其作为模块的输入,以评估每个特征分支的贡献,并最小化特征多样性带来的信息冗余,这个模块中加入了残差结构以减轻信息损失,包括两个全连接层,用于计算多通道表示F中每个维度的注意力权重α,α计算为:α=tanhW2tanhW1F+b+c其中,W1,W2,b和c分别代表两个全连接层的权重矩阵和偏差,使用tanh将注意力权重限制在区间[-1,1]内,然后将得到的注意力向量α与多通道向量F的每个维度进行元素乘法运算,最终融合后的多模态特征向量表示如下:F'=F×α+F其中,F′是模块的输出,将其输入到MLP中预测五个主要的人格特质分数,以三层感知器作为大五人格预测模型,对于这个预测模型,前两个线性层的激活采用ReLU激活函数,激活后添加一个dropout层,最后一层采用sigmoid激活函数将模型的预测输出映射到[0,1]之间的范围。
全文数据:
权利要求:
百度查询: 北京科技大学 青岛市妇女儿童医院(青岛市妇幼保健院、青岛市残疾儿童医疗康复中心、青岛市新生儿疾病筛查中心) 一种融合时空图注意力网络的多模态人格预测方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。