首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于文本改写的检索增强生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:云南师范大学

摘要:本发明涉及一种基于文本改写的检索增强生成方法,属于自然语言处理、大模型、检索增强生成领域。本发明首先确定用户问题文本和作为知识库的待检索的文本;其次使用大模型对该文本进行改写,将文本中使用的代词修改为原指代对象;再将改写后的文本进行分段,转化成候选向量并存入向量数据库;最后使用大模型对用户问题文本进行改写生成多个相似问题,对每个问题文本获取特征向量再和向量数据库中的候选向量进行相似度计算,确定多条参考文本,将用户问题文本与参考文本作为提示文本输入到大模型中获得系统回复输出。本发明在不改变词向量嵌入方法、向量检索方式的情况下能提高召回参考文本的准确性,从而提升系统输出的质量。

主权项:1.一种基于文本改写的检索增强生成方法,其特征在于:Step1:确定用户问题文本和作为知识库的待检索的文本;Step2:使用大模型对待检索的文本进行改写;Step3:将改写后的文本进行分段,转化成候选向量并存入向量数据库;Step4:使用大模型对用户问题文本进行改写生成多个相似问题;Step5:计算问题文本向量与向量数据库中向量的相似性,确定参考文本;Step6:将用户问题文本和参考文本作为提示输入大模型,获得系统输出;确定用户问题文本和作为知识库的待检索的文本包括:将用户与大模型发起提问的文本记为用户问题文本,挂载的知识库作为待检索的文本,记为,其中表示知识库中独立的一条文本,则该知识库共计个文本;使用大模型对待检索的文本进行改写包括:Step2.1设置提示模板Prompt1对待检索的文本改写,将文本中的代词修改为原指代对象;Step2.2将知识库中的每一条文本依次使用Step2.1所述的提示模板进行改写,得到改写后的结果,其中表示改写后的标识;将改写后的文本进行分段,转化成候选向量并存入向量数据库包括:Step3.1设置参数表示期望分割后每条文本的token数量,将改写后的结果按换行符和token数量进行进一步分割,结果记为,其中表示分割后的文本,共计条;Step3.2将中的每一条文本输入预训练好的Bert模型,每一条结果取Bert模型的向量作为文本的句向量,则被向量化为,其中表示第一条文本的句向量,表示嵌入维度,维度与Bert模型保持一致。

全文数据:

权利要求:

百度查询: 云南师范大学 一种基于文本改写的检索增强生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。