Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京邮电大学鲍秉坤获国家专利权

南京邮电大学鲍秉坤获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京邮电大学申请的专利基于非结构化知识嵌入的视频常识文本生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115393773B

龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211096181.3,技术领域涉及:G06V20/40;该发明授权基于非结构化知识嵌入的视频常识文本生成方法是由鲍秉坤;袁梦奇;谭智一;邵曦设计研发完成,并于2022-09-08向国家知识产权局提交的专利申请。

基于非结构化知识嵌入的视频常识文本生成方法在说明书摘要公布了:本发明公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。

本发明授权基于非结构化知识嵌入的视频常识文本生成方法在权利要求书中公布了:1.一种基于非结构化知识嵌入的视频常识文本生成方法,其特征在于,包括: 步骤S1:提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述; 步骤S11、提取视频的图像特征、视频特征和音频特征; 步骤S12、将视频的图像特征、视频特征和音频特征进行跨模态融合得到多模态特征,包括:通过多个LSTM分别对图像特征、视频特征和音频特征进行编码后拼接得到经拼接而成的多模态特征向量;利用基于Transformer结构的编码器将经拼接而成的多模态特征向量重新融合编码,得到最终的多模态特征;其中所述基于Transformer结构的编码器包括一组Self-attention自注意力层和Feedforward前馈网络层; 步骤S13、将多模态特征通过预训练好的视频内容解码器解码生成视频内容的文本描述;所述视频内容解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;其中Self-attention层,用于对文本模态特征进行归一化处理;Cross-attention层,用于处理文本和视频编码间的跨模态关联,通过刻画文本和视频特征的跨模态关联,生成当前位置上最能表现出视频内容的单词;Feedforward前馈网络层,设置在Cross-attention层之后,由一个双层的全连接层组成,通过激活函数来强化每个单词的表达,对每个单词特征的标准化处理,同时将数据先映射到高维空间再映射到低维空间中,以学习到更加抽象的文本表达;在生成每个单词时,根据之前生成出的单词,逐个预测下一个位置上出现概率最大的单词;将生成的单词进行拼接得到视频内容的文本描述的句子; 步骤S2:将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;其中,非结构化知识库GPT的训练方法包括:将视频内容的文本描述和深层次常识描述通过预设的提示词进行连接,构成一个长样本以供引入非结构化知识库GPT训练;其中所述长样本由三部分构成:视频内容的文本描述,提示词,深层次常识描述;在训练非结构化知识库GPT时将视频内容的文本描述和提示词作为已知信息,让非结构化知识库GPT模型逐个单词的生成深层次常识描述;所述提示词包括:针对视频中事件发生的目的,设置“theaimisto:”的提示词;针对视频中事件带来的影响,设置“theeffectis:”的提示词;针对视频中人物或事件的属性,设置“thepersonoreventis:”的提示词; 步骤S3:对深层次常识描述进行编码特征提取后与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征,对多模态常识特征进行解码生成包含视频深层内涵的常识描述文本; 步骤S31、利用Bert模型对深层次常识描述进行编码特征提取,得到文本常识特征; 步骤S32、将文本常识特征与视频的图像特征、视频特征和音频特征进行跨模态常识融合得到多模态常识特征; 步骤S33、利用视频深层次常识解码器对所述多模态常识特征进行解码生成包含视频深层内涵的常识描述文本;所述视频深层次常识解码器采用基于Transformer的解码器,依次包括:Self-attention自注意力层、Cross-attention交叉注意力层和Feedforward前馈网络层;其中Self-attention层,用于对文本模态特征进行归一化处理;Cross-attention层,用于处理跨模态信息,在每生成一个单词时,比较单词与视频和GPT引入的外部常识之间的关联;Feedforward前馈网络层,设置在Cross-attention层之后,通过Feedforward层映射,以概率的形式去单词库中寻找,以生成最终的常识描述文本。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市鼓楼区新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。