中国科学院软件研究所马翠霞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院软件研究所申请的专利一种基于多模态数据的细粒度视频情绪内容问答方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116226347B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310184746.1,技术领域涉及:G06F16/3329;该发明授权一种基于多模态数据的细粒度视频情绪内容问答方法和系统是由马翠霞;秦航宇;杜肖兵;邓小明;王宏安设计研发完成,并于2023-03-01向国家知识产权局提交的专利申请。
本一种基于多模态数据的细粒度视频情绪内容问答方法和系统在说明书摘要公布了:本发明属于视频问答领域,具体涉及一种基于多模态数据的细粒度视频情绪内容问答方法和系统。本发明基于情节记忆网络构建视频情绪推理基线模型,设计针对视觉、音频和文本数据的多分支处理模块,并借助Transformer编码器编码多模态数据中的时序依赖,提取出的多模态特征包含多角度情绪内容,能够精确地完成细粒度视频情绪内容问答任务。本发明利用Transformer编码器在视频、音频和文本序列上学习时序关联关系,并提取与情绪分类相关的高维多模态特征,该时序关联关系对分析视频包含的情绪信息至关重要。本发明能够有效提高基于多模态的细粒度视频情绪内容问答任务结果的准确率。
本发明授权一种基于多模态数据的细粒度视频情绪内容问答方法和系统在权利要求书中公布了:1.一种基于多模态数据的细粒度视频情绪内容问答方法,其特征在于,包括以下步骤: 1以若干句对话为单位对长视频进行分割,并分割对应的字幕文本与音频,得到若干视频片段; 2对于一个视频片段提取多模态特征,包括视觉特征、音频特征和文本特征,并将对应的问题-答案对进行编码,得到问题编码以及答案编码; 3对提取的多模态特征分别进行时序编码; 4基于视觉分支、音频分支和文本分支从视频的多模态特征中提取问题相关信息,使用视频中人物的面部特征增强视觉分支,使用视频故事梗概信息中的故事情节信息增强文本分支,得到增强后的多模态特征; 5将增强后的多模态特征输入情节记忆网络,利用情节记忆网络更新和存储从多模态特征中提取的情绪推理线索,捕捉情绪推理过程中的多模态关键信息,得到视频上下文表示; 6将问题编码以及答案编码和视频上下文表示输入答案预测模块,分别学习针对问题编码和答案编码的情境感知注意力,得到最终的情感问答结果; 其中,步骤5通过以下步骤得到所述情节记忆网络输出的视频上下文表示Cv,a,t: 1注意力机制:计算t次更新过程的门机制注意力得分其中Fattn表示注意力函数,fi表示输出实时序列中的第i个事实向量,mt-1是记忆网络模块中的第t-1次更新后的状态,q表示问题编码向量; 2记忆单元更新机制:计算记忆网络模块中GRU的第i个单元的隐藏层状态其中hi表示GRU中第i个单元的隐藏层状态,并且GRU的最后一层隐藏层状态作为第t次记忆单元更新的视频上下文表示最后,更新第t次记忆单元状态其中Fmem是记忆更新函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院软件研究所,其通讯地址为:100190 北京市海淀区中关村南四街4号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励