恭喜大连理工大学诸葛云志获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜大连理工大学申请的专利一种集成频域设计的视听分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119693857B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510192687.1,技术领域涉及:G06V20/40;该发明授权一种集成频域设计的视听分割方法是由诸葛云志;朱梦圆;卢湖川设计研发完成,并于2025-02-21向国家知识产权局提交的专利申请。
本一种集成频域设计的视听分割方法在说明书摘要公布了:本发明公开一种集成频域设计的视听分割方法。首先引入空间域和频域相结合探索全面的视听对齐和融合的方法,集成频域信息提升了视听一致性,并增强了多模态特征的精细对齐。提出频域导向的音频集成模块和基于频域的跨模态融合模块。其中,频域导向的音频集成模块通过基于频域增强的早期融合将音频信息编码到视觉表征中,从而生成更细致的音频感知的视觉表征,有助于后续生成更鲁棒的多模态表征;基于频域的跨模态融合模块旨在结合空间域和频域探索视听关联,增强跨模态特征对齐,从而提高模型的分割性能。频域导向的音频集成模块被集成到编码器的各阶段,充分利用频域信息和音频线索,减小视听模态间的差异,有助于更精确的视听融合和对齐。
本发明授权一种集成频域设计的视听分割方法在权利要求书中公布了:1.一种集成频域设计的视听分割方法,其特征在于,步骤如下:步骤1:通过频域导向的音频集成模块优化的特征编码在音频编码阶段,使用VGGish模型作为音频编码器提取音频特征;在视觉编码阶段,设计了一个频域导向的音频集成模块,在图像编码的过程中引入频域增强与早期融合相结合的设计,生成更有效的视觉表示;具体如下:采用ResNet-50或PVT-v2作为视觉编码器,视觉编码器包含四个stage用于逐步提取特征,表示为stage1、stage2、stage3和tage4;ResNet-50基于卷积神经网络,通过残差连接和卷积操作逐步降低特征图分辨率,同时增加通道数;PVT-v2采用Transformer架构,通过自注意力机制和patch嵌入方式进行特征提取,在每个stage中通过空间降采样和优化的计算方式有效捕捉全局信息;频域导向的音频集成模块被插入到每个stage的输出之后,用于对对应stage生成的特征图进行处理;经过频域导向的音频集成模块处理后,得到的视觉增强特征作为当前stage的输出,被传递给下一stage作为输入;每个频域导向的音频集成模块的细节表述如下:对于音频编码器输出的音频特征和来自视觉编码器当前stage的空间域视觉特征图,首先使用快速傅里叶变换将空间域视觉特征转换到频域: 其中,表示频域特征图,表示快速傅里叶变换,分别表示视觉特征图的高和宽的索引,分别表示转换后的频域特征图的高和宽的索引;再引入一个阈值将频域特征图划分为高频分量和低频分量,具体如公式下: 进一步,通过引入可学习参数和自适应地调整解耦后的频率分量,生成频域增强的视觉表征,该过程表示如下: 其中,表示频域增强后的视觉表征,表示逆快速傅里叶变换,用于将频域特征映射回空间域;之后,引入跨模态注意力机制将音频编码器生成的音频特征到视觉表征,并使用残差连接得到音频感知的视觉表征,作为当前stage的最终输出和下一stage的输入;该过程用公式表述如下: 其中,表示跨模态注意力机制;最终,视觉编码器输出四个多尺度编码特征{},其中,T表示输入视频帧的时间,H和W分别表示输入的视频每帧的高和宽,表示每个编码特征的通道数;之后,使用一个基于多尺度可变形Transformer的像素解码器进行多尺度视觉特征融合;具体细节如下:视觉编码器提取的多尺度编码特征被进一步送入像素解码器中,多尺度编码特征{中的后三个尺度的视觉特征被展开,沿通道维度连接,再通过多尺度可变形Transformer层进行特征融合,获得增强的多尺度视觉特征{;步骤2:基于频域的跨模态融合设计一个基于频域的跨模态融合模块,用于充分探索视听对应关系;基于频域的跨模态融合模块包含两个分支:空间引导分支和频域感知分支;具体如下:(1)空间引导的分支:包括空间域跨模态注意力运算:使用跨模态注意力机制进行空间域的视听融合,对于音频编码器输出的音频特征和像素解码器输出的多尺度视觉特征{中的最大分辨率视觉特征,分别将编码音频特征作为查询,空间域视觉特征作为键和值输入到跨模态注意力机制中,得到融合的多模态特征,该过程表述如下: 其中,、、是将特征映射到维度为的中间层特征的可学习投影矩阵;之后,多模态特征用于后续优化和调整视觉特征,通过一个带有可学习参数加权的残差连接,与编码音频特征相结合,得到增强的音频特征: (2)频域感知的分支:频域感知的分支与空间引导的分支并行工作;首先使用快速傅里叶变换将空间域的最大分辨率视觉特征转换到频域,得到频域视觉特征图,然后使用全局平均池化减少频域视觉特征维度同时保留全局信息;考虑到频域视觉特征的主要结构和纹理信息体现在幅度谱中,并且音频特征通过提取音频频谱图并使用音频编码器进行编码得到,进一步对频域视觉特征图提取频谱特征,以促进后续的视听交互与对齐;该过程表示如下: 其中,、、、、分别表示傅里叶变换后的频域视觉特征图、全局平均池化后的频域特征、全局平均池化操作、的实部和的虚部;最终,频域感知的分支与空间引导的分支协同工作,以优化和调整视觉表征;频谱特征和融合的多模态特征首先各自独立地经过一层卷积层处理,随后,两者通过逐元素相加和卷积层实现深度融合,使得频谱特征与融合的多模态特征相互补充和增强,促进多模态信息在频域内的有效交互与融合;该过程表述为: 其中,表示卷积操作,表示输出结果,用于加权调整原始视觉特征;通过乘法调整,同样经过带有可学习参数加权的残差连接,得到增强的视觉特征; 其中,表示加权可学习参数;通过基于频域的跨模态融合模块,最终得到优化的音频特征和视觉特征;步骤3:通过解码器实现掩码生成采用Mask2Former架构作为解码器,生成发声物体查询嵌入;再由发声物体查询嵌入与步骤2得到的相结合生成预测掩码;具体如下:基于频域的跨模态融合模块得到的优化后音频特征与可学习参数初始化得到的可学习查询通过逐点加法相结合,作为解码器的查询;同时,像素解码器进行多尺度特征融合输出的增强的多尺度视觉特征{依次作为键和值,并通过逐层跨模态注意力机制与基于音频的查询进行交互,生成发声物体查询嵌入;最后,通过线性层得到分类预测,与基于频域的跨模态融合模块得到的优化后最大分辨率视觉特征相乘,得到预测掩码;步骤4:模型训练在训练过程中同时考虑类别损失和预测掩码损失,为了利用视听分割潜在的时间耦合性来提高模型的性能,采用自适应帧间一致性损失;三种损失相结合得到总损失并反向传播优化模型: 其中,表示真实类别,表示模型预测类别,类别损失函数由交叉熵函数计算;和分别表示真实掩码和预测掩码上某个点的标签,掩码损失函数由二分类交叉熵和Diceloss构成;表示第t帧的预测掩码,即自适应帧间一致性损失;、、分别表示加权参数,即总损失函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。