首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于词级别交互和逐词情感量加权的多模态情感分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:基于词级别交互和逐词情感量加权的多模态情感分析方法属于深度学习技术领域。本发明首先利用BERT和Wav2vec2.0预训练模型实现文本模态和语音模态词级别特征向量的提取;利用Transformer编码器和线性层得到文本语音双模态词级别交互的语句级特征向量;利用Bi‑LSTM模型实现对词级别特征向量按逐词情感含量加权,得到逐词情感含量加权的文本语音双模态语句级特征向量。最后实现将文本语音双模态词级别交互的语句级特征向量和逐词情感含量加权的文本语音双模态语句级特征向量融合得到多模态含多粒度信息的语句级特征向量,并利用全连接网络对语句情感识别。本发明降低粒度差异导致的情感信息丢失。

主权项:1.基于词级别交互和逐词情感量加权的多模态情感分析方法,其特征在于:准备阶段:1.文本语音双模态词级别特征提取1-1提取语音模态词级别特征向量:标注一句话中每个词的起始时间点与结束时间点,在读取音频波形同时读取音频所包含词语的起始及结束时间点,音频起始帧SFrm及结束帧EFrm的计算公式如下:t=N÷fs1SFrm=ST÷t2EFrm=ET÷t3公式1所得t为音频帧长度,表示一帧所占时长,N为一个音频帧的采样点个数,fs为音频采样率,ST为其一词语的起始时间,ET为同词语的结束时间;通过公式123计算此词语的起始帧SFrm和结束帧EFrm,进而得到一条语句内逐词在音频中所占的准确帧范围;对数据集内全部语句中词语计算,将上述步骤对数据集中所有语句操作,得到数据集全部语句的词级别音频数据;将一句话逐词所对应的范围内的音频波形输入Wav2vec2.0预训练模型提取特征,得到一句话中逐词特征向量;一句话中包含M个词语,Wav2vec2.0所提取特征向量为L1维,则此语句最终得到形状为L1×M的特征矩阵,矩阵每列为语音模态词级别特征向量,列数M为语句所包含词语数量,行数L1为特征向量长度;对数据集中所有语句进行上述操作,得到完整数据集的语音模态词级别特征向量及每条语句语音模态特征矩阵;1-2提取文本模态词级别特征向量:文本特征提取采用词级别特征提取;将被训练语句输入BERT预训练模型中,采用BERT输出的词级别的特征向量作为逐词的特征向量;一句话中包含M个词语,BERT输出形状为L2×M的特征矩阵,其中矩阵每列为文本模态词级别特征向量,列数M为语句所包含词语数量,行数L2为特征向量长度;对数据集中全部语句进行上述操作,得到完整数据集的文本模态词级别特征向量及每条语句文本模态特征矩阵;2.多模态时间对齐与词级别粒度多模态融合2-1多模态时间对齐:步骤1-11-2中所得语音模态和文本模态词级别特征向量拼接,得到文本语音双模态词级别特征向量,进而得到每条语句的文本语音双模态词级别特征矩阵;一条包含M个词语的语句在步骤1-1中得到形状为L1×M的语音模态词级别特征矩阵,每列为一个词语的语音模态特征向量,在步骤1-2中得到形状为L2×M的文本模态词级别特征矩阵,每列为一个词语的文本模态特征向量,将两个特征矩阵进行拼接,得到形状为L1+L2×M的时间对齐的语音文本双模态词级别特征矩阵,矩阵每一列为时间对齐的文本语音双模态词级别特征向量;对数据集内全部语句的特征矩阵进行文本语音双模态拼接操作,得到每条语句时间对齐的文本语音双模态词级别特征矩阵;2-2配置Transformer网络:网络输入为步骤2-1中所得形状为L×M的时间对齐的文本语音双模态词级别特征矩阵,其中L=L1+L2;模型网络由S个Transformer编码器组成,每个Transformer编码器的输入和输出均为L×M,最后一层编码器与线性层相连接;线性层输入形状为L×M的特征矩阵,输出为L维特征向量,即为文本语音双模态词级别交互的语句级特征向量;3).逐词情感含量加权与语句级粒度多模态融合3-1配置Bi-LSTM网络:对于音频和文本两个模态分别定义两个相同结构的Bi-LSTM网络,将步骤1-1中提取的语音模态形状为L1×M的语音模态特征矩阵输入语音模态Bi-LSTM网络中,将步骤1-2中提取的文本模态形状为L2×M的文本模态特征矩阵输入文本模态Bi-LSTM网络中;特征矩阵分别传入对应模态网络的编码器中,网络中RNN层数为设定数值;将编码器的输出进行Dropout,以概率p随机裁剪神经元,在后续网络训练过程中进行10次以上训练调整,选择使测试集准确率达到最高的概率p作为Dropout的概率;将裁剪后数据输入线性层中,线性层输出为被预测特征向量的各个情感概率,此概率作为Bi-LSTM网络的输出;一句话包含M个词语,对N个情感进行预测,则网络输出为N×M的情感概率矩阵,矩阵每列为被预测的N个情感概率向量,矩阵列数M为此句话所包含词语的数量,矩阵行数N为被预测情感数量;3-2将语音模态特征矩阵与文本模态特征矩阵分别输入步骤3-1中对应模态的Bi-LSTM网络中训练,利用交叉熵损失函数作为模型Loss计算函数;训练过程中根据Loss对模型进行反向传播,直到训练集准确率上升同时测试集准确率达到最优值不再上升时停止训练;通过对两个模态分别训练,得到文本模态Bi-LSTM模型和语音模态Bi-LSTM模型;3-3将语音模态特征矩阵输入语音模态Bi-LSTM模型中推理,得到语音模态逐词情感预测概率矩阵;将文本模态特征矩阵输入文本模态Bi-LSTM模型中推理,得到文本模态逐词情感预测概率矩阵;两个模态得到的概率矩阵形状的列数M为被预测语句中词语数量,矩阵的行数N为被预测情感数量,矩阵的列为逐词情感预测概率向量构成,矩阵每列中每个元素对应一种被预测情感的概率,完整的矩阵表示本句话中包含M个词语,每个词语中包含N种情感分别的概率;数据集中全部语句中每句话的两个模态都分别通过对应模态的Bi-LSTM模型,每一句话得到一个对应模态的逐词情感预测概率矩阵;3-4以步骤3-3中得到的逐词情感预测概率矩阵中每行逐词情感预测概率向量的方差作为评估逐词情感含量的衡量标准,方差具体计算公式如下: 公式4为计算一个词语的一种模态情感预测概率平均值其中分子中每个xi为一个词语中同一个模态中预测的每种情感概率,总共预测N种情感;公式5为计算一个词语一个模态中的情感预测概率方差,为同一个词相同模态在公式4中计算所得平均值,S2为该词语在此模态的情感预测概率方差;将一条语句中同一模态的全部情感预测概率方差组成情感预测概率方差的集合,将集合内全部方差做归一化处理,使所有词的方差之和等于1,得到本语句中相应模态内逐词所包含情感量的权重;对每个模态所得权重按对应词语顺序排序并组成情感含量权重的长度为M的向量,记为向量A;对数据集内所有语句的文本和语音模态分别计算情感含量权重向量;3-5将步骤3-4得到的情感含量权重向量A与步骤1-11-2中对应模态相同语句的特征矩阵相乘,即可得到该语句在一个模态内的逐词情感含量加权的语句级特征向量;在语音模态下,一条语句有M个词语,语音模态特征矩阵为B,矩阵B形状为L1×M,矩阵B有L1行M列,情感含量权重向量为A,向量A的形状为M×1,向量A拥有M行1列;此语句按情感含量加权的特征向量C为B×A,向量C形状为L1×1,向量C拥有L1行1列;对数据集全部语句的文本模态和语音模态分别计算逐词情感含量加权的语句级特征向量,将同一语句语音模态和文本模态的逐词情感含量加权的语句级特征向量进行拼接操作,最终得到L维逐词情感含量加权的文本语音双模态语句级特征向量,L=L1+L2,其中L1为语音模态逐词特征向量长度,L2为文本模态逐词特征向量长度;4.多模态多粒度情感分析模型训练4-1全连接网络搭建:全连接网络包含两层线性层,一层ReLU激活函数;将步骤2-2中所得L维文本语音双模态词级别交互的语句级特征向量和步骤3-5中所得L维逐词情感含量加权的文本语音双模态语句级特征向量进行拼接,得到2L维的多模态含多粒度信息的语句级特征向量,作为全连接网络的输入,线性层输入长度为多模态含多粒度信息的语句级特征向量长度,输出长度与输入长度相同;将的线性层输出结果输入线性修正单元激活函数,并将ReLU输出结果输入线性层,输出长度为被预测情感数量N;将网络输出情感预测概率向量输入softmax函数: Softmax函数如公式6所示,ai或αj为情感预测概率向量第i或j个元素,函数输出结果最大值所在的位置即为被预测情感的编号;4-2多网络训练:参与训练的网络包含步骤2-2配置的Transformer网络中Transformer编码器和线性层以及步骤4-1配置的全连接网络;将数据集中全部数据划分为训练集和测试集,利用训练集训练参与训练的网络,测试集用于评估网络训练情况;网络训练损失函数使用交叉熵损失函数,交叉熵损失函数如公式7所示: N为网络输出情感预测概率向量的长度,即被预测情感数量,βi为情感预测概率向量中编号为i的情感,pβi为编号为i的情感的真实概率,以one-hot形式表达,qβi为编号为i的情感的预测概率,交叉熵Hp,q值越小表示预测的结果越好;根据所计算Loss进行反向传输,依次对全连接网络和Transformer网络进行网络优化,直到训练集准确率上升的同时测试集准确率达到最优值不再上升时停止训练,得到具有多模态多粒度情感分析能力的完整模型网络;预测阶段:通过以上步骤得到的具有多模态多粒度情感分析能力的完整模型网络,将一条新语句通过步骤1-11-2得到语音模态词级别特征矩阵和文本模态词级别特征矩阵,通过步骤2-12-2得到文本语音双模态词级别交互的语句级特征向量,通过步骤3-33-43-5得到逐词情感含量加权的文本语音双模态语句级特征向量,通过步骤4-1最终得到所预测情感标签。

全文数据:

权利要求:

百度查询: 北京工业大学 基于词级别交互和逐词情感量加权的多模态情感分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。