买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学
摘要:本发明涉及一种基于多模态多去偏见的对话情感识别方法,属于自然语言处理技术领域。对于文本模态,本发明提出了去除五种类型的偏见,包括词向量表示中的性别、年龄、种族、宗教和性少数群体偏见。同时,本发明将文本去偏方法扩展到视觉模态,并着重去除两类最为典型的视觉偏见:性别和种族偏见。本发明进一步提出了一种基于子空间投影的去偏方法,该方法为每种类型的视觉偏见构建一个子空间,并通过将每个视觉信息对象的特征向量表示投影到相应的子空间来代表视觉表示中的所存在的该种类型的偏见,进而将其去除。相比传统多模态对话情感识别方法,本方法更加注重特殊群体的感受,减少了社会偏见。相比现有的大多去偏方法只去除一种偏见,本发明一次去除了五种,关注的特殊群体更多更广泛。
主权项:1.一种基于多模态多去偏见的对话情感识别方法,其特征在于,包括以下步骤:步骤1:文本多去偏;步骤1.1:输入总词集W的原始词向量这里的词向量表示可以通过GloVe词嵌入模型来获得;然后,计算总词集W的主成分,作为候选的频率向量{u1…ud},其中,w表示总词集W中的一个单词,为单词w的向量表示,ud表示总词集W的一个主成分;PCA表示主成分分析操作;表示d维实数向量;d表示词向量的维度;步骤1.2:定义一对偏见对立词;偏见对立词是所属偏见类型的一对对立词;采用余弦相似度,计算总词集W中的每一个单词w与偏见对立词的相关程度;根据需要,各取若干数量作为偏见词集Wm和Wf;步骤1.3:对每个候选频率向量ui,分别重复执行以下步骤:首先,将偏见词集Wm和Wf的词向量wm和wf投影到候选频率向量ui上,并从原词向量中减去,得到去除频率偏见的词向量w′m和w′f;然后,对去除频率偏见的词向量w′m和w′f进行硬去偏;定义n对表示偏见差异的词对令μi表示第i个图片对的平均特征,Di表示第i个词对,v表示Di中的每一个词语,表示Di中每一个词语的特征向量;在此基础上,构建所有偏见词对向量表示的正交表示VC: 其中,T表示转置操作;偏见子空间Bt为SVDVC的第一个矩阵前k个列向量;其中,SVDVC表示对VC进行奇异值分解;对偏见词集w′m、w′f,减去其在偏见子空间Bt上的投影,得到经过去除频率偏见和硬去偏的偏见词的向量表示之后,对两个偏见词集的词向量进行K-Means聚类,计算聚类准确度a;删除候选频率向量ui的去偏效果与聚类准确度a成反比,使聚类准确度a取到最小值的候选频率向量uk;最后,处理全体词向量;先去除全体词向量的频率偏见w′: 再对全体词向量进行硬去偏操作,得到的即为输出的去偏词向量表示按上述过程反复操作,将每次的输出作为下一次去偏的输入,每次去除了一种偏见,最后得到减少了所有类型偏见的词向量表示;步骤2:视觉多去偏;步骤2.1:提取图片特征;将原始数据集的视频切分为帧并逐一输入图片,学习其特征,输出图片的特征向量步骤2.2:视觉硬去偏;首先,选取n对包含针对特定类型视觉偏见的正-反样例对立图片对,设为其中,E表示图片对集合,Gn表示第n个图片对;设μi为第i个图片对的平均特征,Gi表示第i个图片对,表示Gi中每一个图片的特征向量;视觉偏见子空间VB为SVDVC的前k行,取k=1,VB即为一个向量,表示为VC表示: 其中,SVD表示奇异值分解,T表示转置操作;然后,将图片特征修正至视觉偏见子空间,其中表示向量在子空间VB上的投影;由此得到了经视觉硬去偏的图片的特征向量步骤2.3:投影去偏;将步骤2.2得到的图像特征向量作为输入;针对年龄和性别偏见,选取四组偏见图片,分别包括老年人V1、年轻人V2、男性V3、女性V4;计算四个偏见图片集的偏见子空间 其中K∈{1,2,3,4},VK表示偏见图片集,表示图片特征向量,T为转置操作,为外积操作;然后,对于偏见图片集中的每一张图片对应的特征向量修正其在偏见子空间的投影偏见,得到去偏后的特征向量v′: 其中,×表示投影操作,K∈{1,2,3,4},表示偏见子空间;步骤3:多模态对话情感识别;将前两步的输出以及多模态数据集,作为文本模态和视觉模态的去偏数据表示;利用去偏的上下文和多模态信息预测目标话语的情绪;使用外部情感知识丰富文本表示,使用上下文感知注意机制来有效地结合上下文信息,使用自注意力层和前馈子层进行多模态融合。
全文数据:
权利要求:
百度查询: 北京理工大学 一种基于多模态多去偏见的对话情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。