兰州理工大学赵宏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉兰州理工大学申请的专利一种多模态融合结合多层注意力的视频内容描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115661697B 。
龙图腾网通过国家知识产权局官网在2025-11-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111420124.1,技术领域涉及:G06V20/40;该发明授权一种多模态融合结合多层注意力的视频内容描述方法是由赵宏;郭岚;田伟权;米珊;李文改;周振斌;韩泽宇;党育;赵凡;倪志敏;宋馥荣;吴喜川设计研发完成,并于2021-11-26向国家知识产权局提交的专利申请。
本一种多模态融合结合多层注意力的视频内容描述方法在说明书摘要公布了:本发明公开了一种多模态融合结合多层注意力的视频内容描述方法,包括步骤:将数据集中视频的每一帧转换为单张JPEG图像,将视频的音频信息存储为音频文件;提取视频的单帧模态特征,单模态运动时序特征和音频模态MFCC特征;将各单模态特征嵌入到利用self‑attention机制设计的网络结构中,进行单模态特征参数的学习,利用协作表示结构对模态特征进行融合;利用两层LSTM对融合特征进行编码;利用多层LSTM网络对编码后的特征向量进行解码,生成视频对应的描述。本发明克服了现有技术对于视频整体表征信息提取不完善,极易造成中间隐藏信息的丢失,导致生成描述文本准确率低的问题,有效地提高了视频内容描述的准确率。
本发明授权一种多模态融合结合多层注意力的视频内容描述方法在权利要求书中公布了:1.一种多模态融合结合多层注意力的视频内容描述方法,其特征在于,包括步骤 S1:视频多模态数据抽取,利用FFmpeg将数据集中视频的每一帧转换为单张JPEG图像;将视频中提取出来的音频信息存储为wav格式的音频文件; S2:特征提取与预处理,使用ResNet-152网络并结合通道注意力机制提取转换得到的单张JPEG图像的单模态静态特征;利用双流膨胀3D卷积网络I3D提取转换得到的多张JPEG图像的单模态运动时序特征;根据Mel频率倒谱系数MFCC提取音频文件所携带的音频信号,得到单模态MFCC特征; S3:特征嵌入,将所述单模态静态特征、单模态运动时序特征和单模态MFCC特征嵌入到利用self-attention机制设计的嵌入层神经网络中,进行单模态特征参数的学习,包括步骤: S31:将视频的单帧模态静态特征、单模态运动时序特征和音频模态MFCC特征进行归一化处理后,利用长短期记忆网络进行上下文特征处理; S32:将单模态特征利用自注意力机制,计算如公式7所示, 其中,Q、K、V分别是查询向量矩阵、键向量矩阵和值向量矩阵, S33:将经过自注意力机制提取的单帧模态静态特征、单模态运动时序特征和音频模态MFCC特征送入长短期记忆网络进行降维处理; S4:特征融合,利用协作表示结构对上一步经过嵌入层结构的单模态静态特征、单模态运动时序特征和单模态MFCC特征进行多模态特征融合,得到融合特征; S5:特征编码,利用两层LSTM对所述融合特征进行编码; S6:特征解码,利用多层LSTM网络对编码后的特征向量进行解码,生成视频对应的描述,包括步骤:通过计算每个视频对应的20组预测概率值,并取出每一组概率值中最大值所对应的词,生成最终描述文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人兰州理工大学,其通讯地址为:730050 甘肃省兰州市七里河区兰工坪287号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励