京信数据科技有限公司汤克云获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉京信数据科技有限公司申请的专利一种基于大模型和多阶检索数据增强方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118193695B 。
龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410308170.X,技术领域涉及:G06F16/3329;该发明授权一种基于大模型和多阶检索数据增强方法及装置是由汤克云;徐炽明;梁孟;陈楚玲;胡茂南;黎霖深设计研发完成,并于2024-03-18向国家知识产权局提交的专利申请。
本一种基于大模型和多阶检索数据增强方法及装置在说明书摘要公布了:本发明公开了一种基于大模型和多阶检索数据增强方法及装置,属于大数据技术领域,方法包括如下步骤:索引库构建、初步检索、结果重排序、生成SQL草案、多阶段检索优化、执行查询、返回结果给用户和结果反馈与迭代优化,多阶段检索优化又包括首次索引优化、二次索引优化和错误识别调整优化。本发明方法及装置通过智能多阶段检索技术,提高了上下文与用户问题的关联性,通过示例嵌入方式让大模型更容易理解业务数据结构,极大地提高了生成的查询语句的准确性。通过示例代替结构的方式,避免在上下文嵌入数据表结构,缩短了上下文长度,解决了传统方法在处理大规模数据表时性能下降的问题。
本发明授权一种基于大模型和多阶检索数据增强方法及装置在权利要求书中公布了:1.一种大模型和多阶检索数据增强Text2Sql方法,其特征在于,所述方法的具体实现流程包括如下步骤: S1:索引库构建; S2:初步检索; 用户提交查询问题后,先将用户问题转换为对应的向量嵌入,然后将向量嵌入和问题原文提交到向量数据库进行检索; 对查询问题文本本身,采用BM25和排名函数进行文本本身的相似度排名计算; 最后将BM25和排名函数这两个分数按一定比例结合进行增强后进行排名,返回前N个元素; S3:结果重排序; 在步骤S2中得到了N个与查询问题相似的示例结果,采用的相似度方式是向量余弦相似度和文本BM25+结合的方式,在此步骤对相似集合进行重排后,从中得到前K个元素; S4:生成SQL草案; 将从S3步骤得到的相似排序结果,结合预先调优的提示词,作为大模型输入的上下文,然后结合查询问题一起作为大模型的输入,然后得到大模型的输出结果,作为SQL草案; S5:多阶段检索优化; 对S4得到的SQL草案进行多个阶段的优化,多次迭代,每次迭代后得到比前一次更加精确的结果,具体阶段分为首次索引优化、二次检索优化和三次调整优化; 具体包括: S51:首次索引优化; 从步骤S4中得到SQL草案,先对SQL草案进行参数脱敏,然后转换为嵌入向量,首次检索优化在原有第一次检索的基础上添加参数脱敏SQL草案的嵌入向量相似度作为检索排名参数,此时排名得分是结合了查询问题BM25+得分、查询问题向量的余弦相似度和参数脱敏SQL草案向量的余弦相似度,同步骤S2和步骤S3,该步骤进行第一阶段粗分,然后根据粗分结果,结合查询问题向量重排序得分与参数脱敏SQL草案向量的重排序得分进行细分排名,得到精度比S3更高的相似示例集合,然后同步骤S4,得到首次索引优化的草案SQL; S52:二次索引优化; 步骤同S51,二次索引优化是在索引示例多的情况下使用; S53:错误识别调整优化; 将优化后的SQL草案和示例集合,整合到预先调整过的错误识别提示词中,一起作为大模型输入,然后大模型输出调整过的SQL语句; S6:执行查询。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人京信数据科技有限公司,其通讯地址为:528400 广东省中山市东区中山五路57号7层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励