广东技术师范大学;大连理工大学姜莱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东技术师范大学;大连理工大学申请的专利一种基于对偶学习的音频-图像跨模态检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115905583B 。
龙图腾网通过国家知识产权局官网在2025-11-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211326377.7,技术领域涉及:G06F16/432;该发明授权一种基于对偶学习的音频-图像跨模态检索方法是由姜莱;文瑞;王鹏飞设计研发完成,并于2022-10-27向国家知识产权局提交的专利申请。
本一种基于对偶学习的音频-图像跨模态检索方法在说明书摘要公布了:本发明属于深度学习技术领域,涉及一种基于对偶学习的音频‑图像跨模态检索方法。本发明实现了一种音频‑图像的跨模态检索,解决使用传统机器学习方法多模态数据对应关系难以标注的问题。在数据特征提取中,VGG采用小的卷积核和池化层,层数更深,通道数更多,而更多的通道数表示更丰富的图像特征,同时,通道数的增加,使得更多的信息可以被提取出来。构建了特征转换神经网络,将对偶学习引入模型学习,将两个跨模态任务进行训练,为跨模态数据的深度学习方法提供了新思路。
本发明授权一种基于对偶学习的音频-图像跨模态检索方法在权利要求书中公布了:1.一种基于对偶学习的音频-图像跨模态检索方法,其特征在于,包括以下步骤: 步骤一,对于音频数据库中随机选取的一段音频数据A,对其进行预处理后,进行STFT,然后使用CNN模型和Bi-LSTM模型提取音频特征Ax; 步骤二,对于图像数据库中随机选取的一张图像数据B,对其进行预处理后,使用VGG16模型提取图像特征Bx; 步骤三,构建音频、图像相似度算法,计算音频特征之间与图像特征之间的相似度; 步骤四,构建音频-图像、图像-音频特征转换的神经网络模型; 步骤五,结合步骤三中的相似度计算方法,使用对偶学习对步骤四中的神经网络进行训练; 具体步骤如下: 5.1将步骤四构建得到的音频-图像特征转换神经网络记作P·|s;θAB,图像-音频特征转换神经网络记作P·|s;θBA;其中s是神经网络输入,θAB和θBA为神经网络参数; 5.2设音频特征数据集为DA,图像特征数据集为DB,首先从音频-图像特征转换开始,从DA中取出一个音频特征s,将其输入到神经网络P·|s;θAB,得到smid作为对偶学习中间输出,根据步骤四中所述,smid为图像特征; 5.3将smid输入到神经网络P·|s;θBA,使之还原为音频特征,得到s’; 5.4将s以及s’输入到步骤三设计的相似度计算方法,得到奖励r; 5.5由于r看作为s,smid,s’以及神经网络参数θAB和θBA的函数,因此,通过求导及策略梯度的方法来调整两个神经网络模型的参数,从而使奖励r最大化; 5.6从图像特征数据集DB中取出一个图像特征,与音频特征训练方法类似,重复步骤5.2-5.5; 5.7交替从DA和DB中取出数据,训练神经网络模型,直至奖励r收敛,完成模型训练; 步骤六,使用步骤五中训练好的模型,创建音频-图像跨模态检索系统,使之能够通过输入音频,搜索到与之相关的图像,或通过输入图像,找到与之相关的音频数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东技术师范大学;大连理工大学,其通讯地址为:510665 广东省广州市天河区中山大道西293号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励