买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江理工大学
摘要:本发明属于自然语言处理领域。技术方案是:一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:步骤1:将原始视频拆剪为视频片段,提取可被模型识别的文本、音频与视觉特征;步骤2:将步骤1提取的文本、音频和视觉特征首先输入至单模态特征提取模块,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;步骤3:将步骤2所得的多模态高层特征与单模态高层特征进行拼接,通过多层感知机,输出最终的情感分类结果。该方法能在保留模态异质性的前提下,连贯融合不同模态的特征,有效识别复杂场景下的多模态情感。
主权项:1.一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:步骤1将原始视频拆剪为视频片段,标记该视频片段所对应的情感标签,再从该视频片段中提取可被模型识别的文本、音频与视觉特征;所述情感标签分为积极、中性以及消极三类;步骤2将步骤1提取的文本、音频和视觉特征首先输入至单模态特征提取模块,该模块内包含三个长短期记忆网络,以进行模态内交互,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;步骤3将步骤2所得的多模态高层特征与单模态高层特征进行拼接后,通过多层感知机,输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务的损失权重,迭代优化模型;所述不同任务包括文本情感预测、音频情感预测、视觉情感预测以及整体情感预测;步骤2包括如下分步骤:步骤2a、为了使单模态特征在跨模态融合之前能学习其上下文语境信息,采用长短期记忆网络来建模单模态内部交互;即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取,得到单模态隐藏层特征,即文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征;步骤2b、将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合;其中,层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络,门控跨模态transformer网络用于将输入的两个模态特征进行融合;层叠跨模态特征融合模块的具体步骤是:先将文本模态隐藏层特征作为主模态,音频隐藏层特征作为辅助模态,并输入对应模态的单模态高层特征进行引导,融合后得到新的语言特征;所述单模态高层特征包括文本高层特征、音频高层特征,所述新的语言特征包含了文本与音频信息的融合特征;再将新得到的语言特征作为主模态,视觉特征作为辅助模态,输入对应模态高层特征进行引导,得到文本、音频、视觉三个模态的融合特征,该融合特征称为多模态融合特征。
全文数据:
权利要求:
百度查询: 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。