首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多重融合特征组合的多模态情感分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广西师范大学

摘要:本发明公开了一种基于多重融合特征组合的多模态情感分析方法,涉及人工智能中多模态识别处理领域。首先,改进了跨模态多头注意力模型的并行结构,提出了一种串行跨模态情感分析交互方法,该方法采用由多头注意力和GRU网络组成的两层交互网络,并在第一层交互网络中以文本作为查询,以音频作为关键字和值,然后将第一层的交互结果作为第二层的查询与视觉进行交互。其次,提出了一种多模态情感分析的加权融合方法,将视频和音频特征与文本特征对齐。最后,通过三种不同的融合方法从不同角度实现多模态情感特征融合与关联挖掘,加强三种融合方法之间的联系与互补。

主权项:1.一种基于多重融合特征组合的多模态情感分析方法,其特征在于包括以下步骤:S1.对于由文本、音频和视频组成的多模态情感样本,使用BERT语言模型对其文本数据进行编码,并分别使用单向LSTM神经网络对其音频数据和视频数据进行编码,得到多模态情感样本的多模态特征;S2.将多模态情感样本的多模态特征,送入一个由多头注意力和GRU神经网络组成的串行跨模态交互模块,得到多模态情感样本的串行融合特征;S3.将多模态情感样本的多模态特征送入一个直接融合模块,得到多模态情感样本的直接融合特征;S4.将多模态情感样本的多模态特征送入一个权重融合模块,得到多模态情感样本的权重融合特征;S5.将多模态情感样本的串行融合特征、直接融合特征与权重融合特征连接起来,得到多模态情感样本的融合特征组合向量,然后将多模态情感样本的融合特征组合向量送入线性层,得到多模态情感样本的情感极性的预测值;所述BERT语言模型是指GoogleAILanguage在论文“DevlinJ,ChangMW,LeeK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivpreprintarXiv:1810.04805,2018”中提出的BidirectionalEncoderRepresentationsfromTransformersBERT语言模型;所述LSTM是英文LongShort-TermMemory的缩写,表示长短期记忆神经络,由文献“SeppHochreiterandJurgenSchmidhuber.1997.Longshort-termmemory.¨Neuralcomputation,98:1735-1780”所提出;所述GRU神经网络是Cho等人在论文“ChoK,vanMerri¨enboerB,GulcehreC,BahdanauD,BougaresF,SchwenkH,BengioY2014LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation.In:Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pp1724-1734.”中提出的门控循环单元GatedRecurrentUnit,GRU网络;所述步骤S1具体包括:对于由文本、音频和视频组成的多模态情感样本M={Xt,Xa,Xv},使用BERT语言模型对其文本数据Xt进行编码,并分别使用单向LSTM网络对其音频数据Xa和视频数据Xv据进行编码,得到多模态情感样本的多模态特征Fm={ft,fa,fv},计算过程如下所示: 其中,Linear1·、Linear2·、Linear3·分别表示三个线性变换层,aevPool·表示平均池化操作,BERT·表示一个BERT语言模型,sLSTM1·、sLSTM1·分别表示两个单向LSTM神经网络,ft、fa、fv分别为文本特征、音频特征与视频特征,dt为文本特征的维度,da为音频特征的维度,dv为视频特征的维度;所述步骤S2具体包括:S2.1将文本特征ft和音频特征fa送入串行跨模态交互模块中第一层的跨模态多头注意力,其中文本特征ft作为跨模态多头注意力的查询Q,音频特征fa作为跨模态多头注意力的关键字K和值V,得到第一层文本与音频的交互特征计算过程如下所示: 其中,CrossMHA·表示一个跨模态多头注意力,concaat·表示连接操作,为一个线性变换矩阵,为第一个多头注意力的输出,为第n个多头注意力的输出,n为跨模态多头注意力中注意力的头数,且对于第i个多头注意力的计算过程为: 其中,Attention·表示一个由论文“VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.”所提出的缩放点积注意力,分别为第i个多头注意力中关于文本和音频特征的多头映射参数;S2.2将第一层文本与音频的交互特征送入到第一层的GRU神经网络,得到音频增强的文本特征计算过程如下所示: 其中,GRU·表示一个GRU神经网络;S2.3将音频增强的文本特征和视频特征fv送入串行跨模态交互模块中第二层的跨模态多头注意力,其中音频增强的文本特征作为跨模态多头注意力的查询,视频特征fv作为跨模态多头注意力的关键字和值,得到第二层文本、音频与视频的交互特征计算过程如下所示: 其中,的计算过程与公式4中的CrossMHA·相同;S2.4将第二层文本、音频与视频的交互特征送入到第二层的GRU神经网络,以及串行跨模态交互模块的线性变换层,得到串行融合特征计算过程如下所示: 其中,Linear4·表示串行跨模态交互模块中的线性变换层,df为Linear4·输出的串行融合特征的维度;所述步骤S3具体包括:将多模态特征多模态特征Fm={ft,fa,fv}中的文本特征ft、音频特征fa与视频特征fv连接起来,并通过一个线性层Linear5·将连接起来的向量维度转换为df,得到多模态情感样本的直接融合特征Ffusion,计算过程如下所示: 所述步骤S4具体包括:S4.1分别将音频特征fa与视频特征fv送入缩放点积多头注意力,进行多头自注意力融合,得到自注意力融合的音频特征f′a与视频特征f′v,计算过程如下所示: 其中,MHSA·表示查询参数Q、关键字参数K与值参数V相同的缩放点积多头自注意力,所述缩放点积多头自注意力是由论文“VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.”所提出;S4.2将自注意力融合的音频特征f′a和文本特征ft送入一个跨模态多头注意力,其中自注意力融合的音频特征f′a作为跨模态多头注意力的查询Q,文本特征ft作为跨模态多头注意力的关键字K和值V,得到文本增强的音频特征计算过程如下所示: 其中,CrossMHAQ=f′a,K=ft,V=ft的计算过程与公式4中的CrossMHA·相同;S4.3将自注意力融合的视频特征f′v和文本特征ft送入一个跨模态多头注意力,其中自注意力融合的视频特征f′v作为跨模态多头注意力的查询Q,文本特征ft作为跨模态多头注意力的关键字K和值V,得到文本增强的视频特征计算过程如下所示: 其中,GrossMHAQ=f′v,K=ft,V=ft的计算过程与公式4中的CrossMHA·相同;S4.4将文本增强的音频特征与文本增强的视频特征连接起来,并将连接起来的向量通过一个线性层Linear6·转换为维度df,获得权重融合特征计算过程如下所示: 其中,α、β为权重比例参数;所述步骤S5具体包括:S5.1将串行融合特征直接融合特征Ffusion与权重融合特征连接起来得到多模态情感样本的融合特征组合向量并通过一个线性层Linear7·将的维度从3df转换为维度df,计算过程如下所示: S5.2将融合特征组合向量送入到一个线性层Linear8·,将转换为情感极性的预测值Yp,计算过程如下所示:

全文数据:

权利要求:

百度查询: 广西师范大学 一种基于多重融合特征组合的多模态情感分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。