买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州谐云科技有限公司
摘要:本发明公开了一种RAG系统优化方法、系统、电子设备及存储介质,包括将文档转换为图像;对图像进行分析,识别出锚框的四个坐标和目标类别;对图像中的文本内容进行提取,生成带有结构化标记的文档;从带有结构化标记的文档中有序提取标题,将标题输入大语言模型中,生成层级关系的标题;将层级关系的标题替换原始标题,生成摘要信息;以各层级标题为分割点生成多个文档分块;将每个文档分块转换为高维向量;基于向量搜索和关键词搜索,确定检索的最终结果。本发明显著提升了RAG系统在复杂问答任务中的表现,能够有效区分相似文档并更好地理解文档全局语义,最终提供更加准确和全面的回答,有效缓解了传统方法在应对复杂文档场景时的局限性。
主权项:1.一种RAG系统优化方法,其特征在于,包括:将PDF文档的每一页转换为图像;利用目标检测模型对所述图像进行分析,识别出锚框的四个坐标和目标类别,所述目标类别包括文章标题、章节标题和正文;基于所述目标类别所在的页码信息和所述目标类别在页面的坐标位置进行排序;利用OCR模型对所述图像中的文本内容进行提取,并将提取的文本依据排序结果进行合并,生成带有结构化标记的文档;从所述带有结构化标记的文档中有序提取标题,并将所述标题嵌入提示词中输入大语言模型中,生成层级关系的标题;将所述层级关系的标题替换所述带有结构化标记的文档中的原始标题,并为每个层级生成摘要信息;所述带有结构化标记的文档以各层级标题为分割点生成多个文档分块,所述文档分块包括层级标题、层级摘要和正文;利用向量模型将每个所述文档分块转换为用于支持向量搜索的高维向量;基于所述高维向量的向量搜索和关键词的关键词搜索,确定检索的最终结果。
全文数据:
权利要求:
百度查询: 杭州谐云科技有限公司 一种RAG系统优化方法、系统、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。