买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北斗数字信息产业发展(辽宁)有限公司
摘要:本发明的实施例提供了基于音视频特征融合的视频质量评价方法、装置和设备。所述方法包括获取视频段的关键帧,输入到Transformer编码器中,得到视觉特征;从音频段获取GAF频谱图,提取对应的频谱信息,输入卷积模块,输出音频特征;将视觉特征输入改进的Transformer编码器,得到视觉语义特征;将音频特征输入ResNet18卷积神经网络,得到音频语义特征;将视觉语义特征和音频语义特征进行融合后输入全连接层,输出质量评价分数,进行质量评价。以此方式,可以解决现有技术中对音频和视频特征特征提取不准确,忽略交互作用,仅进行简单融合获取整体质量评价分数,无法获取较好的性能的技术问题。
主权项:1.一种基于音视频特征融合的视频质量评价方法,其特征在于,包括:获取音视频段,所述音视频段包括视频段和视频段对应的音频段;提取视频段的关键帧,输入到Transformer编码器中,得到视频段的视觉特征;从视频段对应的音频段获取GAF频谱图,从GAF频谱图中提取对应音频段的频谱信息,并将对应音频段的频谱信息输入卷积模块,输出对应音频段的音频特征;将视觉特征输入改进的Transformer编码器,得到视频段的视觉语义特征;以及将对应音频段的音频特征输入ResNet18卷积神经网络,得到对应音频段的音频语义特征;将视频段的视觉语义特征和对应音频段的音频语义特征进行融合后输入全连接层,输出音视频段的质量评价分数,对音视频段进行质量评价;所述改进的Transformer编码器包括网络结构相同的第一Transformer编码器和第二Transformer编码器;所述网络结构依次包括BiLSTM块、融合层和Transformer编码器;所述ResNet18卷积神经网络依次包括第一卷积层、池化层、第一残差块、第二残差块、第三残差块和第四残差块;所述将视觉特征输入改进的Transformer编码器,得到视频段的视觉语义特征;以及将对应音频段的音频特征输入ResNet18卷积神经网络,得到对应音频段的音频语义特征,包括:将视觉特征输入第一Transformer编码器,获取视频段的第一级视觉语义特征;将对应音频段的音频特征输入ResNet18卷积神经网络,所述ResNet18卷积神经网络的第三残差块的输出,得到对应音频段的第一级听觉语义特征;将第一级视觉语义特征和第一级听觉语义特征相加,得到第一级融合语义信息;将第一级融合语义信息与第一级视觉语义特征相加,输入第二Transformer编码器,得到第二级视觉语义特征;所述第二级视觉语义特征作为视频段的视觉语义特征;将第一级融合语义信息与第一级听觉语义特征相加,输入ResNet18卷积神经网络的第四残差块,得到第二级听觉语义特征;所述第二级听觉语义特征作为对应音频段的音频语义特征。
全文数据:
权利要求:
百度查询: 北斗数字信息产业发展(辽宁)有限公司 基于音视频特征融合的视频质量评价方法、装置和设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。