北京八月瓜科技有限公司宗小兵获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京八月瓜科技有限公司申请的专利一种基于向量化模型的跨语言信息检索方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121434375B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512043597.9,技术领域涉及:G06F16/3332;该发明授权一种基于向量化模型的跨语言信息检索方法和装置是由宗小兵;刘子阔;王霄培;苏晓伟;李长青;李磊设计研发完成,并于2025-12-31向国家知识产权局提交的专利申请。
本一种基于向量化模型的跨语言信息检索方法和装置在说明书摘要公布了:本公开提供了一种基于向量化模型的跨语言信息检索方法和装置,方法包括:接收用户以目标语言输入的检索请求;基于多语言嵌入模型将检索请求转化为待检索语义向量;在向量知识库中,确定与待检索语义向量的相似度最高的M个检索结果向量,并向用户反馈检索结果向量对应的信息条目原文。本公开通过构建目标语言的正负样本对集合完成对多语言嵌入模型的学习微调,使多语言嵌入模型构建一个与语种无关的语义空间,实现无论用户使用的目标语言是什么语种,其转换后的语义向量都能够与向量知识库中的条目在同一个语义空间进行比较和匹配,确保跨语言查询的语义一致性,显著提升跨语言信息检索准确性。
本发明授权一种基于向量化模型的跨语言信息检索方法和装置在权利要求书中公布了:1.一种基于向量化模型的跨语言信息检索方法,其特征在于,包括: 接收用户以任意一种目标语言输入的检索请求; 基于多语言嵌入模型将所述检索请求转化为待检索语义向量,所述多语言嵌入模型通过对基座模型进行基于正负例样本对集合的对比学习微调训练而来; 在向量知识库中,确定与所述待检索语义向量的相似度最高的M个检索结果向量,并向用户反馈所述检索结果向量对应的信息条目原文; 所述多语言嵌入模型基于如下步骤训练而来: 获取人工标注的单语言数据集,所述单语言数据集包括多个数据对,每个数据对包括示例查询语句和标签,所述标签用于表征所述示例查询语句的核心语义意图; 将所述单语言数据集划分为第一子集和第二子集;其中,所述第一子集包括多个第一数据对,所述第一数据对根据所述标签的分布比例从所述单语言数据集中进行分层抽样获得,使所述第一子集中的每个标签的分布比例与所述单语言数据集中相应标签的分布比例一致;所述第二子集包括多个第二数据对,所述第二数据对为所述单语言数据集中除去所述第一子集以外的其他数据对; 根据所述第二子集生成每种所述目标语言的正例样本对集合、负例样本对集合和合成数据对集合; 选择多语言Transformer嵌入模型作为基座模型,并对所述基座模型进行基于所有所述正例样本对、所述负例样本对和所述合成数据对的对比学习微调,直至对比损失最小,得到所述多语言嵌入模型; 所述正例样本对集合基于如下步骤生成: 对于每个所述第二数据对中的示例查询语句,将所述示例查询语句翻译成目标语言T,得到目标语言查询语句; 从所述第一子集中随机选择一个与所述第二数据对的示例查询语句具有相同标签的第一数据对的示例查询语句作为正例查询语句,并关联所述目标语言查询语句和所述正例查询语句,形成正例样本对集合; 所述负例样本集合对基于如下步骤生成: 对于每一个目标语言查询语句,在所述第一子集中随机选择一个与所述第二数据对的示例查询语句具有不同标签的第一数据对的示例查询语句作为负例查询语句,关联所述目标语言查询语句和所述负例查询语句,形成随机负样本对集合; 对于每一个目标语言查询语句,计算其标签与所述第一子集中每个标签的相似度得分; 基于所述相似度得分对所述第一子集中的第一数据对进行加权采样,从采样结果中选取k个采样结果数据对,并确定k个采样结果数据对中的示例查询语句,关联所述目标语言查询语句和k个采样结果数据对中的示例查询语句,形成困难负样本对集合; 根据所述随机负样本对集合和所述困难负样本对集合形成所述负样本对集合; 所述合成数据对集合基于如下步骤生成: 生成与所述目标语言查询语句的语义相同的至少一个合成正例查询语句,并生成与所述目标语言查询语句的语义不同的至少k个合成负例查询语句,根据所述合成正例查询语句和所述合成负例查询语句形成所述合成数据对集合;其中,所述合成正例查询语句和所述合成负例查询语句的表达方式均与所述目标语言查询语句不同。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京八月瓜科技有限公司,其通讯地址为:100070 北京市丰台区南四环西路186号三区4号楼-1至11层101内9层11室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励