Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于文本质量感知的视频描述方法与系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江西财经大学

摘要:本发明提出一种基于文本质量感知的视频描述方法与系统,该方法首先对同一视频标注的所有文本描述生成伪真值标签,通过设计文本‑标签一致性评估方法和文本‑视频相似性评估方法形成描述文本标注质量的向量表示;然后获取包含批量视频的描述质量矩阵,以确保存在准确的最全面的标签与最不相关的标签,并且通过归一化,将所有评估指标对应的质量值映射到相同尺度,加快模型的训练;最后以归一化后的质量向量作为辅助信号,与视频的特征编码拼接后形成标注质量感知的视频特征表达。通过描述质量感知描述解码,令模型能够生成与质量一致的描述。本发明通过全面地评估描述的质量以及文本质量感知描述解码,有效地从噪声数据中学习。

主权项:1.一种基于文本质量感知的视频描述方法,其特征在于,所述方法包括如下步骤:步骤1、选取同一视频标注的所有文本描述,共同构成评估描述质量的伪真值标签;步骤2、基于文本-标签一致性,选取语言评估指标ROUGH、CIDEr和预训练的BERT作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量;步骤3、基于文本-视频相似性,选取预训练的CLIP作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量;步骤4、将每个文本描述对应的第一描述文本标注质量和第二描述文本标注质量进行拼接,形成描述文本标注质量向量集合;步骤5、获取若干视频的描述文本标注质量向量集合,再进行拼接操作,得到描述质量矩阵;针对每个质量评估指标,将描述质量矩阵中的每个描述文本标注质量向量在对应质量评估指标中的质量值组成质量向量,再进行最小最大归一化处理,得到归一化后的质量向量;步骤6、将归一化的质量向量嵌入为质量特征,利用视觉编码器获取视频的特征编码,将质量特征作为质量辅助信号与特征编码一并送入由多层Transformer模块组成的解码器中,通过自回归的方式,利用质量辅助信号辅助逐步生成描述;在所述步骤2中,基于文本-标签一致性,选取语言评估指标ROUGH、CIDEr和预训练的BERT作为质量评估指标,利用同一视频标注的所有文本描述和伪真值标签评估描述文本标注的质量,以生成第一描述文本标注质量的方法具体包括如下步骤:选用语言评价指标ROUGH和CIDEr当作质量评估指标,通过计算文本描述与伪真值标签的语义一致性来量化标题的质量,以生成描述文本标注质量,其中,分别表示视频标注的第i个描述文本通过ROUGH和CIDEr质量评估指标得到的质量值,对应的过程存在如下关系式: ;其中,表示ROUGH,CIDEr的质量评估操作,表示文本描述在第j个质量评估指标计算的描述质量值;选用预训练的BERT当作质量评估指标,首先利用BERT的文本嵌入层分别获取文本描述的文本特征和伪真值标签的文本特征;其中,,,表示文本描述经过BERT得到分词的长度,表示分词的维度,表示实数集,分别表示伪真值标签中第1、2和I个文本描述生成的文本特征;对于分别生成的文本特征和进行全局平均池化操作得到均值向量和,其中,,,分别表示伪真值标签中第1、2和I个文本描述生成的均值向量;对文本特征和分别计算方差得到方差向量和;利用方差向量和创建对角矩阵得到对角协方差矩阵和;其中,,,分别表示伪真值标签中第1、2和I个文本描述生成的方差向量;,,分别表示伪真值标签中第1、2和I个文本描述生成的对角协方差矩阵;利用得到的均值向量和,对角协方差矩阵和,将文本描述和伪真值标签表示为高斯分布和,对应的过程存在如下关系式: ;其中,,分别表示伪真值标签中第1、2和I个文本描述表示的高斯分布,表示正态分布;基于高斯分布的表现形式,计算高斯分布与高斯分布中每个元素之间的Bhattacharyya距离,生成文本描述与伪真值标签的距离向量,对应的过程存在如下关系式: ; ;其中,表示行列式操作,表示转置操作,表示求逆操作,表示文本描述与伪真值标签的距离向量,,,分别表示文本描述与伪真值标签中第1、2和I个文本描述计算的Bhattacharyya距离值;通过对生成的距离向量计算均值,得到描述文本标注的质量,描述文本标注质量和描述文本标注的质量构成第一描述文本标注质量;在所述步骤3中,基于文本-视频相似性,选取预训练的CLIP作为质量评估指标,利用同一视频标注的所有文本描述和视频来评估描述文本标注的质量,以生成第二描述文本标注质量的方法具体包括如下步骤:从视频中均匀采样F帧,采用预训练的CLIP的视觉编码器提取每帧的视觉特征并拼接得到视频特征;其中,,分别表示视频采样的第1,2和F帧的视觉特征;对视频特征中所有帧进行均值池化处理并归一化得到全局视频特征,对应的过程存在如下关系式: ;其中,表示归一化操作,表示全局视频特征,,表示特征维度;对描述文本采用预训练的CLIP的文本编码器提取描述文本的全局文本特征,其中,;通过计算全局视频特征和全局文本特征的相似性,作为描述文本标注的质量,对应的过程存在如下关系式: ;其中,表示转置操作,表示第二描述文本标注的质量。

全文数据:

权利要求:

百度查询: 江西财经大学 基于文本质量感知的视频描述方法与系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。