买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国矿业大学
摘要:本发明涉及视频处理与编码技术领域,具体公开了一种支持多种计算复杂度的深度视频编解码方法。该深度视频解码方法包括:S1、在编码器一侧以输入帧和参考帧作为输入,进行运动估计;S2、通过运动压缩模块处理来自运动估计模块的运动信息,得到解码运动信息;S3、通过给定的参考帧与解码运动信息,执行运动补偿,生成预测帧;S4、通过残差压缩模块,根据输入帧和预测帧生成残差信息;S5、将重构后的残差信息添加回预测帧中,生成重构输出帧。利用上述方法,实现使用一个学习解码器而不是多个解码器,就能同时支持多种复杂度级别的效果,并且能够在性能下降可忽略不计的情况下提高其解码效率。
主权项:1.一种支持多种计算复杂度的深度视频编解码方法,其特征在于,所述方法具体包括以下步骤:S1、在编码器一侧以输入帧和参考帧作为输入,进行运动估计;具体包括以下步骤:将输入帧的图像序列分成许多互不重叠的宏块,为每个宏块设定在参考帧中的搜索范围,搜索范围是一个以当前宏块在参考帧中对应位置为中心的矩形区域;在设定的搜索范围内,根据MSE匹配准则,找出与当前宏块最相似的块,即匹配块,MSE通过计算两个宏块对应像素值之差的平方的平均值来量化它们之间的差异,MSE值越小,表示两个宏块越相似,MSE的计算公式为: ;其中,M和N分别是宏块在水平和垂直方向上的像素数,sx,y表示当前宏块中位于x,y位置的像素值,zx,y表示参考帧中候选宏块对应位置的像素值;匹配块与当前宏块的相对位移,即为运动矢量;S2、通过运动压缩模块处理来自运动估计模块的运动信息,得到解码运动信息;所述运动压缩模块包括运动编码器、熵编码、熵解码和运动解码器,具体包括以下步骤:运动编码器对来自运动估计模块的运动信息进行编码,生成编码运动特征;执行熵编码操作,将编码后的运动特征转换为运动比特流,并发送至解码器端;在解码器端,运动比特流首先被熵解码为熵解码运动特征,然后通过运动解码器网络将其解码为解码运动信息;所述熵编码以及熵解码,其具体过程为:熵编码即编码过程中按熵原理不丢失任何信息的编码,信息熵为信源的平均信息量,计算信息熵:,其中是信源发出符号的概率,q是信源符号的总数;通过信息熵的计算结果指导编码表的建立,按照建立的编码表,将信源发出的符号序列转换为对应的码字序列;熵解码是熵编码的逆过程,首先从压缩的码流中读取码字;接着,使用预先建立的编码表,查找每个码字对应的原始符号;最后,将查找到的符号按照码流中的顺序组合起来,恢复原始的数据序列;所述运动解码器执行以下步骤:运动解码器网络将量化后的运动信息解码为原始的运动向量,该网络包含多个卷积层、非线性变换函数,解码器中的卷积解卷积层采用可纤化卷积解卷积层,非线性变换函数选择LReLU;可纤化卷积层在卷积层中加入通道宽度选择模块,根据当前的复杂度约束条件决定每个卷积层的最佳通道宽度,每个卷积层提供了三个选项,以实现不同的计算复杂度;选择通道宽度后进行卷积操作,从输入中提取特征并生成解码后的运动向量,非线性变换在解码过程中引入非线性,以更好地逼近原始的运动向量;解码后的运动向量用于后续的运动补偿步骤;S3、通过给定的参考帧与解码运动信息,执行运动补偿,生成预测帧;具体包括以下步骤:根据解码出的运动向量,在参考帧中找到对应的像素块;将这些像素块“移动”到当前帧中相应的位置,将移动后的像素块与当前帧的其他部分组合起来,生成预测帧;S4、通过输入帧与预测帧得到残差信息,通过残差压缩模块,得到解码残差信息;具体包括以下步骤:对于输入帧中的每个像素或像素块,计算其原始值与预测帧中对应位置像素或像素块的预测值之间的差值,得到残差信息;残差压缩模块包括残差编码器、熵编码、熵解码和残差解码器,残差编码器对生成的残差信息进行编码,生成编码残差特征;执行熵编码操作,将编码后的残差特征转换为残差比特流,并发送至解码器端;在解码器端,残差比特流首先被熵解码为熵解码残差特征,然后通过残差解码器网络将其解码为残差运动信息;所述残差编码器执行以下步骤:在编码片的第一个宏块之前,残差编码器进行初始化,设置算术编码器中的相关参数;进行编码决定,即决定输入和输出,输入:语法元素经过二进制化后的值、上下文模型和编码器的环境参数;输出:更新后的编码器的环境参数;使用当前编码器区间范围计算Qi的索引值i;利用状态索引和i进行查表,得出非最可能符号状态的概率范围的概率;根据要编码的符号是否是最可能符号来更新算术编码中的概率区间下限和概率区间范围;对残差信息进行变换,对变换后的残差信号进行量化,量化步长具体范围取决于应用的具体需求和压缩比目标,其中低频信号的量化步长设置为1到10之间的某个值,高频信号的量化步长为低频信号的几倍到几十倍;所述残差解码器执行以下步骤:残差解码器网络将量化后的残差解码为原始的残差数据,可纤化解卷积层选择通道宽度后再进行卷积操作,从输入中提取特征并生成解码后的残差数据,非线性变换在解码过程中引入非线性,解码后的残差数据将与预测帧结合,生成最终的重建帧;S5、将重构后的残差信息添加回预测帧中,生成重构输出帧;具体包括以下步骤:对于预测帧和重构后的残差中的每一个对应像素,执行像素级别上的加法运算,如果预测帧和残差的数据类型或取值范围不同,需要进行数据类型转换或范围调整,以确保加法运算的正确性。
全文数据:
权利要求:
百度查询: 中国矿业大学 一种支持多种计算复杂度的深度视频编解码方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。