当前位置 : 首页 > 专利喜报 > 深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司李若尘获国家专利权

深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司李若尘获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司申请的专利一种基于互信息变分自编码器的图像声音检索方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115359529B 。

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202210978675.8，技术领域涉及：G06V40/16；该发明授权一种基于互信息变分自编码器的图像声音检索方法是由李若尘;张世雄;黎俊良;魏文应;龙仕强;安欣赏设计研发完成，并于2022-08-16向国家知识产权局提交的专利申请。

本一种基于互信息变分自编码器的图像声音检索方法在说明书摘要公布了：本发明的基于互信息变分自编码器的图像声音检索方法，首先将声音转化为语谱图，对声音和人脸进行特征提取，之后通过两个不同的互信息变分自编码器对提取后的人脸图像和语谱图特征进行编码，编码结果将人脸特征编码为模态共享人脸特征、模态专属人脸特征，声音特征编码为模态共享声音特征、模态专属声音特征；通过特征蒸馏，过滤掉模态专属特征σf,σv，保留模态共享特征μf,μv，之后对两个不同的特征空间的特征重采样并通过一个相同的解码器重建成新的人脸Z1和声音Z2，通过互信息、均方误差损失函数增强μf和μv的相关性，重建后的图像声音特征对就代表原始的图像和声音来自同一个人。本发明方法有效提升了声音、人脸检索的准确率及系统执行效率。

本发明授权一种基于互信息变分自编码器的图像声音检索方法在权利要求书中公布了：1.一种基于互信息变分自编码器的图像声音检索方法，其特征在于，包括以下步骤： S1.对人脸图像及声音进行预处理，将声音转化为语谱图并提取声音特征； S2.将所述人脸图像和所述声音送入特征提取网络进行特征提取，提取后的特征通过变分自编码器VAE进行编码，编码后的均值对应模态共享图像特征μf和模态共享声音特征μv，方差对应模态专属特征，之后通过特征蒸馏，摒弃模态专属特征，仅保留所述模态共享图像特征μf和所述模态共享声音特征μv； S3.将S2的输出所述模态共享图像特征μf和所述模态共享声音特征μv进行拼接，并通过一个相同的通用变分自编码器VAE解码器进行解码和重建，得到重建后的人脸和声音对Z1,Z2； S4.计算编码和特征蒸馏后的共享图像特征μf和共享声音特征μv的互信息损失值、推土机距离损失，计算特征对μf，μv和重建后的人脸声音对Z1,Z2间的均方误差损失，计算KL散度损失值，并计算上述损失的加权平均作为网络的最终损失函数； S5.将S4的输出作为优化目标，采用Adam优化器进行迭代优化。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司，其通讯地址为：518116 广东省深圳市龙岗区龙城街道腾飞路龙岗创投大厦37楼；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司李若尘获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务