当前位置 : 首页 > 专利喜报 > 武汉大学孙超获国家专利权

武汉大学孙超获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉武汉大学申请的专利基于多粒度跨模态耦合的音频引导视觉分割方法及装置获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120953601B 。

龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510918328.X，技术领域涉及：G06V10/26；该发明授权基于多粒度跨模态耦合的音频引导视觉分割方法及装置是由孙超;张俊博;杜博设计研发完成，并于2025-07-03向国家知识产权局提交的专利申请。

本基于多粒度跨模态耦合的音频引导视觉分割方法及装置在说明书摘要公布了：本发明涉及人工智能与多媒体技术领域，特别涉及一种基于多粒度跨模态耦合的音频引导视觉分割方法及装置，其中，方法包括：提取目标视频帧的多级视觉特征和音频梅尔频谱特征；对多级视觉特征和音频梅尔频谱特征进行模态内增强，以得到增强后的多级视觉特征和增强后的音频梅尔频谱特征；将增强后的多级视觉特征和增强后的音频梅尔频谱特征进行跨模态融合，以生成语义增强查询向量；利用语义增强查询向量对预先构建的Transformer注意力解码器进行训练，以生成像素级分割掩膜，并将像素级分割掩膜与多级视觉特征进行融合，以得到掩膜预测结果。由此，解决了现有视听分割方法存在模态内噪声干扰、音频引导不足、多源声音纠缠等问题。

本发明授权基于多粒度跨模态耦合的音频引导视觉分割方法及装置在权利要求书中公布了：1.一种基于多粒度跨模态耦合的音频引导视觉分割方法，其特征在于，包括以下步骤：提取目标视频帧的多级视觉特征和音频梅尔频谱特征；对所述多级视觉特征和所述音频梅尔频谱特征进行模态内增强，以得到增强后的多级视觉特征和增强后的音频梅尔频谱特征；将所述增强后的多级视觉特征和所述增强后的音频梅尔频谱特征进行跨模态融合，以生成语义增强查询向量，具体包括：利用预先构建的语义融合模型映射所述增强后的多级视觉特征和所述增强后的音频梅尔频谱特征，以计算跨模态注意力图；利用所述跨模态注意力图对所述增强后的多级视觉特征进行加权，以得到具体引导音频语义的多级视觉特征；利用预先构建的语义感知音频查询模型分别提取所述增强后的多级视觉特征中的视觉时序特征和所述增强后的音频梅尔频谱特征的音频时序特征；利用所述视觉时序特征和所述音频时序特征计算跨模态相似性矩阵；根据所述跨模态相似性矩阵和所述具体引导音频语义的多级视觉特征计算所述语义增强查询向量；利用所述语义增强查询向量对预先构建的Transformer注意力解码器进行训练，直至预设混合损失函数收敛，以生成像素级分割掩膜，并将所述像素级分割掩膜与所述多级视觉特征进行融合，以得到掩膜预测结果。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人武汉大学，其通讯地址为：430072 湖北省武汉市武昌区八一路299号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

武汉大学孙超获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务