首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备,它属于机器的多模态感知技术领域。本发明解决了现有情感分析技术需要人工对各模态序列进行对齐标注的问题。本发明对现有大规模预训练语言模型的多模态情感分析方法进行改进,使本发明方法不需要人工的对齐标注,因而适合目前大规模数据量、未对齐的多模态序列场景的情形,极大地提高了其实用性。而且,将本发明提出的方法在公开的最常使用的多模态情感分析的2个数据集上进行验证,结果表明其分类性能较基线系统有很大提高。本发明可以应用于情感分析。

主权项:1.一种基于跨模态自动对齐和预训练语言模型的情感分析方法,其特征在于,所述方法具体包括以下步骤:步骤1、提取输入视频中的音频模态情感特征;利用表示第i帧音频的情感特征,将提取的各帧音频的情感特征表示为音频情感特征序列Ta代表音频序列长度,代表实数域;提取输入视频中的视觉模态情感特征;利用表示第j帧图像的情感特征,将提取的各帧图像的情感特征表示为视觉情感特征序列Tv为图像帧数;步骤2、采用预训练好的BERT模型提取输入视频的词向量序列,将提取出的词向量序列和音频情感特征序列、视觉情感特征序列进行自动对齐;所述步骤2的具体过程为:将预训练好的BERT模型的第一层输出作为输入视频的词向量序列其中,wk代表序列中的第k个词向量,Tl代表词向量序列的长度;将音频情感特征序列映射到词向量序列所在的语义空间,得到映射后的特征序列 其中,fa·为音频情感特征序列对应的映射函数,为对应的映射后情感特征;分别计算词向量wk与各帧音频对应的映射后情感特征的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧音频情感特征的权重;根据权重对提取的各帧音频的情感特征进行加权求和,得到与词向量wk对应的音频情感特征 其中,代表第1帧音频的情感特征的权重;进而得到与词向量序列对齐的音频情感特征序列将视觉情感特征序列映射到词向量序列所在的语义空间,得到映射后的特征序列 其中,fv·为特征序列对应的映射函数,为对应的映射后情感特征;分别计算词向量wk与各帧图像对应的映射后情感特征的语义相似度,再对计算出的语义相似度进行归一化处理,将获得的归一化处理结果作为对应帧图像情感特征的权重;根据权重对提取的各帧图像的情感特征进行加权求和,得到与词向量wk对应的视觉情感特征 其中,代表第1帧图像的情感特征的权重;进而得到与词向量序列对齐的视觉情感特征序列将作为词向量序列和音频情感特征序列、视觉情感特征序列自动对齐的结果;步骤3、对词向量序列进行修正利用自适应门函数和步骤2的自动对齐结果对词向量序列进行修正,获得修正后的词向量序列;步骤4、情感预测将修正后的词向量序列作为预训练好的BERT模型的第二层的输入,修正后的词向量序列依次经过预训练好的BERT模型的后续结构,得到输入视频的情感倾向。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 一种基于跨模态自动对齐和预训练语言模型的情感分析方法、系统及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。