首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于线性稀疏注意力Transformer的视频去摩尔纹方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:福州大学

摘要:本发明提出一种基于线性稀疏注意力Transformer的视频去摩尔纹方法,训练基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现在训练完成后对输入的视频去除摩尔纹;所述基于线性稀疏注意力Transformer的视频去摩尔纹网络包括:特征提取模块,用于对视频帧进行特征提取;空间Transformer模块、时间Transformer模块以及,图像重建模块,用于将经过空间Transformer模块和时间Transformer模块的视频帧特征进行解码,恢复成与输入视频尺度相同的去摩尔纹视频帧。

主权项:1.一种基于线性稀疏注意力Transformer的视频去摩尔纹方法,其特征在于:训练基于线性稀疏注意力Transformer的视频去摩尔纹网络,以实现在训练完成后对输入的视频去除摩尔纹;所述基于线性稀疏注意力Transformer的视频去摩尔纹网络包括:特征提取模块,用于对视频帧进行特征提取;空间Transformer模块,以使用空间Transformer的空间注意力捕捉单帧图像中存在摩尔纹的位置并进行重点去除;时间Transformer模块,以使用时间Transformer的时间注意力捕捉多帧图像间存在的互补信息,并利用相邻帧的互补信息进行图像恢复;以及,图像重建模块,用于将经过空间Transformer模块和时间Transformer模块的视频帧特征进行解码,恢复成与输入视频尺度相同的去摩尔纹视频帧;所述特征提取模块的输入是同一个摩尔纹视频内相邻的五个视频帧,其中输入的视频帧用It表示,其大小为3×H×W,t∈[1,5];该模块由四个卷积块和三个池化层组成,卷积块负责抽取图像特征,池化层采用2×2的平均池化层来缩小特征尺度;将视频帧It输入到第一个卷积块中,得到特征图其大小为C×H×W,将送入池化层和第二个卷积块,得到特征图其大小为相同的,将送入池化层和第三个卷积块得到将送入到池化层和最后一个卷积块得到和大小分别为和每个所述卷积块由一个卷积层、一个激活层、一个卷积层和一个激活层按序组成;其中,两个激活层都采用ReLu激活函数,两个卷积层都采用卷积核为3×3的卷积,第一个卷积层实现通道数的变化,而第二个卷积层则维持通道数不变;所述空间Transformer模块由九个线性稀疏注意力去摩尔纹层和一个绝对位置编码组成;其中第一层的输入是特征提取模块的特征图后续每一层的输入为前一层的输出,最后一层的输出特征图Ft为空间Transformer模块的最终输出,每一层在线性的时间复杂度内计算出特征图的空间注意力;所述绝对位置编码是和尺度相同的可学习矩阵,并且在训练之前使用Xavier初始化方法对该矩阵进行参数初始化;所述线性稀疏注意力去摩尔纹层由一个空间自注意力层、一个随机失活层、一个归一化层、一个多层感知机、一个随机失活层和一个归一化层按序组成;两个随机失活层都将神经元失活概率设置为0.1,两个归一化层采用层归一化;多层感知机由第一全连接层、激活层和第二全连接层按序组成,激活层采用ReLu激活函数;在将输入特征图送入空间自注意力层之前,先将特征图与绝对位置编码进行逐元素相加,再送入空间自注意力层中;加上绝对位置编码的输入特征图和第一个随机失活层的输出存在残差连接,第一个归一化层的输出和第二个随机失活层的输出存在残差连接;所述空间自注意力层由四个可学习矩阵组成,分别为Query权重矩阵Wq、Key权重矩阵Wk、Value权重矩阵Wv和瓶颈矩阵Wp;该层的计算公式如下:Q=DotWq,FinK=DotWk,FinV=DotWv,FinH=DotSoftmaxQ,DotSoftmaxKT,VFout=DotWp,H其中,Fin为空间自注意力层的输入,Fout为空间自注意力层的输出,Q、K和V分别为Query矩阵、Key矩阵和Value矩阵,KT表示K矩阵的转置矩阵,H为空间自注意力层的注意力特征图,Dot表示矩阵乘法计算;Q、K和Wv都是在L2损失函数约束下的稀疏矩阵;所述时间Transformer模块的输入为空间Transformer模块的最终输出Ft;由四个时间注意力去摩尔纹层、一个绝对位置编码和一个绝对时间编码组成;该绝对位置编码与空间Transformer模块的绝对位置编码共享参数;所述绝对时间编码是一个尺度为5×8C×1×1的可学习矩阵,在训练之前使用Xavier初始化方法对该矩阵进行参数初始化;第一个时间注意力去摩尔纹层的输入为五个视频帧对应的Ft,后续每一层的输入为前一层的输出,最后一层对第t帧的输出特征图为时间Transformer模块对t帧的最终输出;所述时间注意力去摩尔纹层由一个时间自注意力层、一个随机失活层、一个归一化层、一个空间自注意力层、一个随机失活层、一个归一化层、一个多层感知机、一个随机失活层和一个归一化层按序组成;三个随机失活层都将神经元失活概率设置为0.1,三个归一化层都采用层归一化,多层感知机由一个全连接层、一个激活层和一个全连接层按序组成,激活层采用ReLu激活函数;所述空间自注意力层的结构与线性稀疏注意力去摩尔纹层中的空间自注意力层的结构相同;在将输入特征图送入时间自注意力层之前,先将输入的五个视频帧的特征图在时间维度上进行拼接,之后将拼接好的特征图与绝对时间编码进行逐元素相加,再送入到时间自注意力层中,而当特征图输入到空间自注意力层前,需要先将拼接的特征图按视频帧拆分开来,之后需要加上空间Transformer的绝对位置编码;加上绝对时间编码的输入特征图和第一个随机失活层的输出存在残差连接,加上绝对位置编码的特征图和第二个随机失活层的输出存在残差连接,第二个归一化层的输出和第三个随机失活层的输出存在残差连接;所述时间自注意力层由四个可学习矩阵组成,分别为Query权重矩阵W′q、Key权重矩阵W′k、Value权重矩阵W′v和瓶颈矩阵W′p;该层的计算公式如下: Ka=[K1,K2,...,K5]Va=[V1,V2,...,V5]Hti,j=DotSoftmaxDotQti,j,Kai,jT,Vai,jFout=DotW′p,H其中,t表示第t帧,t∈[1,5],为时间自注意力层中属于第t帧的输入特征,Fout为时间自注意力层的输出,Qt、Kt和Vt分别为属于第t帧的Query矩阵、Key矩阵和Value矩阵,Softmax表示对矩阵的最后一个维度进行softmax计算,Dot表示矩阵乘法计算,上标T表示矩阵转置,[]表示组成矩阵操作,Ka和Va分别为五个帧的Key矩阵和Value矩阵,H为完整的时间自注意力层的注意力特征图,i,j表示特征所在的位置,即,将特征图划分为多个2×2的不重叠小方块,i,j表示特征所在的小方块位置;Hti,j表示第t帧的i,j位置在H中的局部注意力特征,Kai,j表示在Ka中i,j位置的局部Key矩阵,Vai,j表示在Va中i,j位置的局部Value矩阵,Qti,j表示在Qt中i,j位置的局部Query矩阵,W′v是在L2损失函数约束下的稀疏矩阵;所述图像重建模块的输入是时间Transformer模块对第三帧的最终输出其尺度为由三个上采样块、三个卷积块、一个1×1卷积和一个Tanh激活层组成;将输入到第一个上采样块得到特征图其大小为将和特征提取模块的特征图按通道进行拼接后输入到第一个卷积块中得到特征图将输入到第二个上采样块中得到特征图其大小为将和特征提取模块的特征图按通道进行拼接后输入到第二个卷积块中得到特征图将输入到第三个上采样块中得到特征图其大小为C×H×W,将和特征提取模块的特征图按通道进行拼接后输入到第三个卷积块中得到特征图将输入到一个1×1卷积和一个Tanh激活层得到输出帧图像即对应摩尔纹视频帧I3的去摩尔纹帧;所述上采样块由一个上采样层、一个卷积层和一个激活层按序组成,上采样层采用放大倍率为2的双线性插值上采样,卷积层是卷积核为3×3的卷积,同时该卷积层实现特征图通道数的改变,即将通道数降为原来的一半,激活层采用ReLu激活函数;所述卷积块由一个卷积层、一个激活层、一个卷积层、一个激活层按序组成,卷积层都是卷积核为3×3的卷积,激活层都采用ReLu激活函数。

全文数据:

权利要求:

百度查询: 福州大学 基于线性稀疏注意力Transformer的视频去摩尔纹方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。