北京市科学技术研究院吴素研获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京市科学技术研究院申请的专利一种多源异构多模态数据的知识融合方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118690838B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410735595.9,技术领域涉及:G06N5/02;该发明授权一种多源异构多模态数据的知识融合方法及系统是由吴素研;吕志坚;侯元元;徐冠宁;张士运;赵桂芬;李瑛;杜丽萍设计研发完成,并于2024-06-07向国家知识产权局提交的专利申请。
本一种多源异构多模态数据的知识融合方法及系统在说明书摘要公布了:本发明公开了一种多源异构多模态数据的知识融合方法,包括:步骤1:对来自不同来源的数据进行预处理和标准化,确保数据的质量和一致性;步骤2:对不同模态的数据进行特征提取,生成统一的向量表示;步骤3:将高维特征向量降维到低维空间,以减少计算开销;步骤4:将不同模态的数据对齐,使其在同一语义空间中进行表示和处理;步骤5:使用图神经网络进行融合表示学习,生成综合特征表示;步骤6:将融合后的特征表示整合到知识图谱中,形成统一的知识结构。本发明在提升数据处理和融合效率、降低计算成本方面具有显著优势。
本发明授权一种多源异构多模态数据的知识融合方法及系统在权利要求书中公布了:1.一种多源异构多模态数据的知识融合方法,其特征在于,包括如下步骤:步骤1:对来自不同来源的数据进行预处理和标准化,确保数据的质量和一致性;步骤2:对不同模态的数据进行特征提取,生成统一的向量表示;步骤3:将高维特征向量降维到低维空间,以减少计算开销;步骤4:将不同模态的数据对齐,使其在同一语义空间中进行表示和处理;步骤5:使用图神经网络进行融合表示学习,生成综合特征表示;步骤6:将融合后的特征表示整合到知识图谱中,形成统一的知识结构;所述步骤1包括:所述预处理包括:去除噪声、拼写纠正、缺失值填补,以及将不同格式的数据统一转换为结构化格式;所述标准化包括:将数值数据归一化,使其数值范围一致;所述步骤2包括:将文本分解为单词序列{w1,w2,...,wn};将每个单词wi映射为向量vi;通过平均法计算句子向量对句子向量进行标准化处理生成的统一向量表示为vfinal;其中,n是句子中的单词数,vsentence是句子的向量表示,μ是向量的均值,σ是向量的标准差,vnormalized是标准化后的向量表示;所述步骤3包括:使用如下公式计算高维特征向量之间的相似度矩阵: 其中,pij是样本xi和xj之间的条件概率,σi样本xi其最近邻的距离;通过最小化高维空间中样本之间的相似度和低维空间中样本之间的相似度之间的KL散度来优化样本的映射位置: 其中,qij是样本yi和yj之间的条件概率;计算高维空间中条件概率分布P和低维空间中条件概率分布Q之间的KL散度: 将样本在低维空间的位置作为降维后的特征表示;所述步骤4包括:建立嵌入空间,其中每个模态的特征向量都可以映射到该嵌入空间中:z=[z1,z2,...,zm]其中,zi表示共享空间中的第i个维度向量;定义损失函数,以最小化不同模态之间的差异: 其中,xi和yi分别表示不同模态的特征向量,l·是用来衡量两个向量之间差异的损失函数;通过梯度下降优化算法,最小化损失函数,更新模型参数,使得不同模态的特征向量在共享空间中逐渐对齐:θ*=argminθLθ其中,θ表示模型参数;得到的模型参数θ*用于将不同模态的特征向量映射到共享空间中,实现模态对齐:zi=fxi;θ*其中,f·是映射函数,将特征向量xi映射到共享空间中的向量zi。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京市科学技术研究院,其通讯地址为:100089 北京市海淀区西三环北路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。