一种基于多重融合特征组合的多模态情感分析方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广西师范大学

摘要：本发明公开了一种基于多重融合特征组合的多模态情感分析方法，涉及人工智能中多模态识别处理领域。首先，改进了跨模态多头注意力模型的并行结构，提出了一种串行跨模态情感分析交互方法，该方法采用由多头注意力和GRU网络组成的两层交互网络，并在第一层交互网络中以文本作为查询，以音频作为关键字和值，然后将第一层的交互结果作为第二层的查询与视觉进行交互。其次，提出了一种多模态情感分析的加权融合方法，将视频和音频特征与文本特征对齐。最后，通过三种不同的融合方法从不同角度实现多模态情感特征融合与关联挖掘，加强三种融合方法之间的联系与互补。

主权项：1.一种基于多重融合特征组合的多模态情感分析方法，其特征在于包括以下步骤：S1.对于由文本、音频和视频组成的多模态情感样本，使用BERT语言模型对其文本数据进行编码，并分别使用单向LSTM神经网络对其音频数据和视频数据进行编码，得到多模态情感样本的多模态特征；S2.将多模态情感样本的多模态特征，送入一个由多头注意力和GRU神经网络组成的串行跨模态交互模块，得到多模态情感样本的串行融合特征；S3.将多模态情感样本的多模态特征送入一个直接融合模块，得到多模态情感样本的直接融合特征；S4.将多模态情感样本的多模态特征送入一个权重融合模块，得到多模态情感样本的权重融合特征；S5.将多模态情感样本的串行融合特征、直接融合特征与权重融合特征连接起来，得到多模态情感样本的融合特征组合向量，然后将多模态情感样本的融合特征组合向量送入线性层，得到多模态情感样本的情感极性的预测值；所述BERT语言模型是指GoogleAILanguage在论文“DevlinJ,ChangMW,LeeK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivpreprintarXiv:1810.04805,2018”中提出的BidirectionalEncoderRepresentationsfromTransformersBERT语言模型；所述LSTM是英文LongShort-TermMemory的缩写，表示长短期记忆神经络，由文献“SeppHochreiterandJurgenSchmidhuber.1997.Longshort-termmemory.¨Neuralcomputation,98:1735-1780”所提出；所述GRU神经网络是Cho等人在论文“ChoK,vanMerri¨enboerB,GulcehreC,BahdanauD,BougaresF,SchwenkH,BengioY2014LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation.In:Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pp1724-1734.”中提出的门控循环单元GatedRecurrentUnit，GRU网络；所述步骤S1具体包括：对于由文本、音频和视频组成的多模态情感样本M＝{Xt，Xa，Xv}，使用BERT语言模型对其文本数据Xt进行编码，并分别使用单向LSTM网络对其音频数据Xa和视频数据Xv据进行编码，得到多模态情感样本的多模态特征Fm＝{ft，fa，fv}，计算过程如下所示：其中，Linear1·、Linear2·、Linear3·分别表示三个线性变换层，aevPool·表示平均池化操作，BERT·表示一个BERT语言模型，sLSTM1·、sLSTM1·分别表示两个单向LSTM神经网络，ft、fa、fv分别为文本特征、音频特征与视频特征，dt为文本特征的维度，da为音频特征的维度，dv为视频特征的维度；所述步骤S2具体包括：S2.1将文本特征ft和音频特征fa送入串行跨模态交互模块中第一层的跨模态多头注意力，其中文本特征ft作为跨模态多头注意力的查询Q，音频特征fa作为跨模态多头注意力的关键字K和值V，得到第一层文本与音频的交互特征计算过程如下所示：其中，CrossMHA·表示一个跨模态多头注意力，concaat·表示连接操作，为一个线性变换矩阵，为第一个多头注意力的输出，为第n个多头注意力的输出，n为跨模态多头注意力中注意力的头数，且对于第i个多头注意力的计算过程为：其中，Attention·表示一个由论文“VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.”所提出的缩放点积注意力，分别为第i个多头注意力中关于文本和音频特征的多头映射参数；S2.2将第一层文本与音频的交互特征送入到第一层的GRU神经网络，得到音频增强的文本特征计算过程如下所示：其中，GRU·表示一个GRU神经网络；S2.3将音频增强的文本特征和视频特征fv送入串行跨模态交互模块中第二层的跨模态多头注意力，其中音频增强的文本特征作为跨模态多头注意力的查询，视频特征fv作为跨模态多头注意力的关键字和值，得到第二层文本、音频与视频的交互特征计算过程如下所示：其中，的计算过程与公式4中的CrossMHA·相同；S2.4将第二层文本、音频与视频的交互特征送入到第二层的GRU神经网络，以及串行跨模态交互模块的线性变换层，得到串行融合特征计算过程如下所示：其中，Linear4·表示串行跨模态交互模块中的线性变换层，df为Linear4·输出的串行融合特征的维度；所述步骤S3具体包括：将多模态特征多模态特征Fm＝{ft，fa，fv}中的文本特征ft、音频特征fa与视频特征fv连接起来，并通过一个线性层Linear5·将连接起来的向量维度转换为df，得到多模态情感样本的直接融合特征Ffusion，计算过程如下所示：所述步骤S4具体包括：S4.1分别将音频特征fa与视频特征fv送入缩放点积多头注意力，进行多头自注意力融合，得到自注意力融合的音频特征f′a与视频特征f′v，计算过程如下所示：其中，MHSA·表示查询参数Q、关键字参数K与值参数V相同的缩放点积多头自注意力，所述缩放点积多头自注意力是由论文“VaswaniA,ShazeerN,ParmarN,etal.Attentionisallyouneed[J].Advancesinneuralinformationprocessingsystems,2017,30.”所提出；S4.2将自注意力融合的音频特征f′a和文本特征ft送入一个跨模态多头注意力，其中自注意力融合的音频特征f′a作为跨模态多头注意力的查询Q，文本特征ft作为跨模态多头注意力的关键字K和值V，得到文本增强的音频特征计算过程如下所示：其中，CrossMHAQ＝f′a，K＝ft，V＝ft的计算过程与公式4中的CrossMHA·相同；S4.3将自注意力融合的视频特征f′v和文本特征ft送入一个跨模态多头注意力，其中自注意力融合的视频特征f′v作为跨模态多头注意力的查询Q，文本特征ft作为跨模态多头注意力的关键字K和值V，得到文本增强的视频特征计算过程如下所示：其中，GrossMHAQ＝f′v，K＝ft，V＝ft的计算过程与公式4中的CrossMHA·相同；S4.4将文本增强的音频特征与文本增强的视频特征连接起来，并将连接起来的向量通过一个线性层Linear6·转换为维度df，获得权重融合特征计算过程如下所示：其中，α、β为权重比例参数；所述步骤S5具体包括：S5.1将串行融合特征直接融合特征Ffusion与权重融合特征连接起来得到多模态情感样本的融合特征组合向量并通过一个线性层Linear7·将的维度从3df转换为维度df，计算过程如下所示： S5.2将融合特征组合向量送入到一个线性层Linear8·，将转换为情感极性的预测值Yp，计算过程如下所示：

全文数据：

权利要求：

百度查询：广西师范大学一种基于多重融合特征组合的多模态情感分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：信息推送的方法、装置、电子设备和存储介质

下一篇：数据传输控制方法、设备、存储介质及程序产品

相关技术

信息推送的方法、装置、电子设备和存储介质

数据传输控制方法、设备、存储介质及程序产品

一种基于指数分解的区域水质影响因素贡献量化分析方法

一种目标高度已知的SAR动目标一维测角定位方法

一种奖章加工用激光切割设备及切割工艺

一种煤炭制样系统

自动适配开关实现低压直流无线智能灯配解网触发的系统、方法、装置、处理器及存储介质

一种食品级不锈钢烤盘加工用翻边设备

一种蒴果揉搓分选装置及其分选方法

模型可见面选取方法、装置及非易失性存储介质

一种命令行的配置存储方法及其对应的配置读取方法

一种供电用绝缘板材旋转搬运机构

态相关技术

一种沙石流态尾矿浓缩机_本溪钢铁(集团)有限责任公司_202422217418.X

一种三态接口控制输出电路_中国航空工业集团公司沈阳飞机设计研究所_202110153350.1

大肠杆菌NH3及其在水解结合态胆红素为游离态胆红素中的应用_上海和不同科技有限公司_202411127831.5

一种自旋态的微波谐振腔及其制作工艺_中北大学_202411150959.3

一种用于流态固化土的泥浆制备装置_陕西建科岩土工程有限公司_202420370768.7

基于DPU的报文转发方法和系统、用户态协议栈和IP核_中科驭数(北京)科技有限公司_202311434149.6

分区发用电平衡实时监控预警及未来态分析方法及系统_国网甘肃省电力公司_202410286139.0

一种海陆生态综合监测系统及其使用方法_河北省地质矿产勘查开发局第八地质大队(河北省海洋地质资源调查中心)_202410975818.9

流态轻质淤泥固化土结合土工材料加固软基结构_浙江省水利水电勘测设计院有限责任公司_202323408810.4

热态渣溜槽及其在回收铜渣内有价金属中的应用_中南大学_202411293140.2

多模相关技术

一种无人船多模触发引信_云南双舟科技有限公司_202322989727.4

重载卡车多轴多模混合动力驱动系统及车辆_庆铃汽车(集团)有限公司_202323320104.4

一种多模信息下的人体动作时序检测方法_电子科技大学_202410734469.1

一种超大模场的多沟槽单模光纤及其制备方法_苏州国顺激光技术有限公司_202410733549.5

一种基于多模混沌同步键控的安全密钥分发技术_广东工业大学_202410425090.2

一种低功耗的多模定位平台及定位方法_江苏新塔数字科技研究院有限公司_202411087538.0

多层多模自行车胎硫化机及其生产工艺_福建省益震科技有限公司_202010894766.4

一种基于多模干涉的光计算芯片和控制系统_西湖大学_202210337295.6

多层多模轮胎硫化机及其生产工艺_福建省益震科技有限公司_202010894813.5

模体组件_上海西门子医疗器械有限公司_202322979086.4

组合相关技术

组合物_电化株式会社_202380024919.1

气门机构组件的组合和子组合_伊顿智能动力有限公司_202380028131.8

组合型门套_六安市文瀚门业有限公司_202323368215.2

外用组合物_小林制药株式会社_201980043736.8

固化性组合物_日东新兴有限公司_202080084775.5

组合水杯支撑座_上海环安宇鑫冶金设备有限公司_202420600237.2

伞形组合烟花_浏阳市双子星烟花贸易有限公司_202420643421.5

外涂覆组合物_特洛伊公司_202080039567.3

涂料组合物_陶氏环球技术有限责任公司_201680090213.5

离聚物树脂组合物_可乐丽美国股份有限公司_202380024358.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多重融合特征组合的多模态情感分析方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务