首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于RAG技术的智能文档检索生成方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本发明涉及自然语言处理技术领域,具体涉及一种基于RAG技术的智能文档检索生成方法和系统,通过将从多样化数据源中收集各种格式的文档中的数据转换为文本数据,并对文本数据进行处理,对处理后的文本数据进行切块以及向量化,以建立索引,然后根据用户输入的查询,从建立的索引中检索文本数据,检索出的文本数据生成满足用户需求的文本结果,并对文本结果进行质量评估,并根据质量评估结果,进行再次检索或输出最终文本结果,从而形成了一个从检索增强到内容生成的完整流程,该流程不仅能够提升信息检索的准确性和详尽性,为用户提供更加丰富和精准的内容,而且还为用户提供了便捷、可靠的文本内容幻觉检测与修正服务。

主权项:1.一种基于RAG技术的智能文档检索生成方法,其特征在于,包括:步骤一、从多样化数据源中收集各种格式的文档;步骤二、将各种格式文档中的数据转换为文本数据,并对文本数据进行处理;步骤三、对处理后的文本数据进行切块以及向量化,以建立索引;步骤四、根据用户输入的查询,检索文本数据;步骤五、生成满足用户需求的文本结果;步骤六、对文本结果进行质量评估,并根据质量评估结果,动态调整处理流程,其中,动态调整处理流程包括返回步骤四和行进到步骤七;步骤七、显示最终文本结果;所述步骤二包括:利用OCR技术和自然语言处理工具,将所收集的各种格式文档中的数据转换为文本数据;应用机器学习算法对文本数据进行均值分析和最大最小长度统计,以理解文本数据的特征和分布;根据所理解的文本数据的特征和分布对文本数据进行数据清洗和提取文本摘要预处理;在预处理后的文本数据中添加关键信息,以提升内容筛选和条件过滤的效率和准确性;所述步骤四包括:通过预检索模块理解用户所输入查询深入的意图;根据所理解的意图对用户查询进行改写和纠错,其中,可以采用将用户的单个查询拆解为多个相关查询;从多个相关查询中筛选出最符合用户意图的查询,并将筛选出的查询转换为查询数值向量;根据查询数字向量通过算法从索引项中检索出与查询数值向量最相关的文本块数值向量,从而得到文本数据;对得到的文本数据进行优先级排序;通过有效的压缩得到的文本数据;整合来自不同数据源和不同形式的文本数据,以得到检索文本数据。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 一种基于RAG技术的智能文档检索生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。