Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京信息工程大学吴泽远获国家专利权

南京信息工程大学吴泽远获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京信息工程大学申请的专利一种基于音视频自适应感知融合的情感分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121256516B

龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511821082.0,技术领域涉及:G06F18/241;该发明授权一种基于音视频自适应感知融合的情感分类方法是由吴泽远;孙玉宝设计研发完成,并于2025-12-05向国家知识产权局提交的专利申请。

一种基于音视频自适应感知融合的情感分类方法在说明书摘要公布了:本发明公开了一种基于音视频自适应感知融合的情感分类方法,旨在解决多模态融合时,时序信息利用不充分、多模态数据分类过程中鲁棒性差的技术问题;构建一个包含语音分支、视频分支、融合分支的三分支网络结构;其中,语音分支、视频分支为单模态分支,在单模态分支中,通过时域特征挖掘层深入学习上下文依赖关系;在融合分支中,通过感知融合模块将单模态的时序信息引入到融合特征中;并利用模态有效性预测模块,动态评估各分支的可靠性并分配权重,获得最终的情感分类预测结果。本发明通过深化时序信息挖掘并自适应地权衡不同模态的有效性,有效缓解了因单一模态数据质量不佳而导致的模型性能下降问题,实现了更准确、更鲁棒的情感分类。

本发明授权一种基于音视频自适应感知融合的情感分类方法在权利要求书中公布了:1.一种基于音视频自适应感知融合的情感分类方法,其特征在于,针对目标对象,执行步骤S1-步骤S5,完成目标对象的情感分类: 步骤S1:分别采集目标对象的语音数据和面部视频数据,并分别进行预处理提取特征,获得语音特征向量和面部特征向量; 步骤S2:构建三分支结构的情感分类网络模型,情感分类网络模型包括语音分支、视频分支、融合分支;分别将语音特征向量和面部特征向量输入语音分支、视频分支,分别输出各自的特征向量和情感分类预测结果,融合分支接收语音分支、视频分支的输出,进行特征融合,输出融合分支的特征向量和情感分类预测结果; 步骤S2的具体步骤如下: 步骤S2.1:将语音特征向量A输入情感分类网络模型的语音分支中,语音特征向量A在语音分支中依次经过深度特征挖掘模块、平均池化层、全连接层; 所述的深度特征挖掘模块中包括时域特征挖掘层和Mamba层,其中,时域特征挖掘层包括串联的预设数量的膨胀卷积块,分别在每个膨胀卷积块中,首先通过一个1x1的卷积将语音特征向量A的通道数减半,接着通过一个膨胀卷积捕获时序信息,最后通过另一个1x1卷积将通道数还原,并与所在的膨胀卷积块的输入进行残差连接,膨胀卷积块的膨胀率如下式: ; 式中,为膨胀率,i为层数; 时域特征挖掘层最终输出语音分支时域特征; 将时域特征挖掘层输出的语音分支时域特征输入Mamba层,并将Mamba操作的输出与Mamba层的输入语音分支时域特征进行残差连接,最终Mamba层输出语音分支单模态深度特征; 将语音分支单模态深度特征经过一个平均池化层后,输入到一个由全连接层组成的分类器中,得到语音分支的情感类别预测结果; 步骤S2.2:将面部特征向量V输入情感分类网络模型的视频分支中,视频分支的结构与语音分支相同,经过时域特征挖掘层输出视频分支时域特征,经过Mamba层输出视频分支单模态深度特征,最终输出视频分支的情感类别预测结果; 步骤S2.3:融合分支接收语音分支、视频分支的输出,融合分支包括特征交叉融合模块和感知融合模块,特征交叉融合模块采用两次并行的多头跨模态交叉注意力操作,一次以语音特征向量A为查询,面部特征向量V为键和值;另一次以面部特征向量V为查询,语音特征向量A为键和值;两个多头跨模态交叉注意力操作的输出被拼接后,通过一个1x1卷积得到初步融合特征,计算过程如下: ; ; ; 式中,、分别为输入的语音特征向量和面部特征向量,表示交叉注意力操作;、为计算过程中的中间特征;表示以语音特征向量为查询、面部特征向量为键和值进行交叉注意力的结果;表示以面部特征向量为查询,语音特征向量为键和值进行交叉注意力的结果;分别为两次交叉注意力操作中各自包含的可学习参数集;表示一个1x1卷积操作,用于融合拼接后的中间特征是1x1卷积操作的可学习参数;代表经过双向交叉注意力和卷积融合后得到的初步融合特征; 感知融合模块将初步融合特征分别与语音分支时域特征和视频分支时域特征再次进行交叉注意力操作,将交叉注意力操作的输出与初步融合特征进行残差连接,并送入一个Mamba层,最终输出深度融合特征,计算过程如下: ; ; 式中,为前序步骤得到的初步融合特征;、分别为语音分支时域特征、视频分支时域特征;为计算过程中的一个中间特征,它由两个并行的交叉注意力结果在通道维度上拼接而成,其中第一个交叉注意力以为查询,为键和值;第二个则以为查询,为键和值;、分别为这两个用于注入时域信息的交叉注意力操作的可学习参数集;表示Mamba操作,是Mamba操作对应的可学习参数;代表最终输出的、注入了单模态时序信息的融合分支深度融合特征; 步骤S2.4:将融合分支深度融合特征输入分类器,得到融合分支的情感类别预测结果; 步骤S3:构建模态有效性预测模块,将语音分支、视频分支、以及融合分支的特征向量和情感分类预测结果分别输入模态有效性预测模块,模态有效性预测模块为各分支的情感分类预测结果计算权重,并加权组合得到最终的情感分类预测结果; 步骤S4:构建复合损失函数计算总损失,并采用反向传播算法更新情感分类网络模型、模态有效性预测模块参数,针对情感分类网络模型、模态有效性预测模块进行训练; 步骤S5:判断情感分类网络模型、模态有效性预测模块是否收敛,若收敛则完成训练,否则,返回步骤S2,直至完成训练,应用训练好的情感分类网络模型、模态有效性预测模块,完成情感分类。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京信息工程大学,其通讯地址为:210032 江苏省南京市江北新区宁六路219号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。