首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向行业大模型的多层次主题式检索增强生成方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东大学

摘要:本发明属于大语言模型与信息检索领域,提供了一种面向行业大模型的多层次主题式检索增强生成方法及系统,本发明构建了基于语义主题演化学习的长文本分割模型,实现了文档知识的有效切分,避免了段落语义丢失和异常句式的出现。同时,基于主题模型的生成能力,在文档层次生成主题内容,实现文档‑段落两个层次的语义关联,对知识进行更好的管理。在此基础上,本发明构建了多层次主题相似检索方法,在文档‑段落两个层次上进行目标问题的相似检索,减少噪音段落的出现,优化大语言模型提示工程中的候选集内容,从而提高大语言模型应用在目标行业领域知识问答系统的专业性和可靠性。

主权项:1.面向行业大模型的多层次主题式检索增强生成方法,其特征是,包括以下步骤:获取现有目标行业领域相关文档知识,进行数据预处理,统一成标准文本格式;在文档层次,利用文档主题生成模型对文档内容进行主题化生成,得到该文档的主题内容;在句子层次,以文档中的句子和句子间隔标识为输入,利用主题编码器得到向量化的句子主题表示;以得到的向量化的句子主题表示为输入,利用双向长短期记忆网络进行后处理,得到每一时间步的隐含向量表示,通过选取相邻时间步的隐含向量,使用向量拼接的方式,得到句子间隔点的特征表示;以得到的句子间隔点的特征表示为输入,利用sigmoid层,计算句子间隔点的分割预测得分;以主题编码器、双向长短期记忆网络和sigmoid层构成长文本分割模型;基于长文本分割模型,对文档内容进行语义主题分割,结合生成的文档的主题内容,利用文本向量化操作,存储到本地向量库中,形成多层次主题的行业领域知识库;针对用户提出的问题,访问多层次主题行业领域知识库,经过多层次主题相似性检索,得到Top-k个语义主题相关的候选知识列表,结合所述问题,共同输入目标大语言模型中,得到优化后的结果输出,具体的:针对用户提出的问题,通过文本预处理和向量化操作,得到向量化的问题;访问多层次主题式行业领域知识库,利用向量相似度计算方法,在主题层次上计算问题与知识库中各主题的语义相关性;在段落层次上计算问题与知识库中各段落的相关性,得到层次主题相似性分布;根据主题层次分布相似度,计算得到Top-k个语义主题相关的候选知识列表;以所述候选知识列表和所述问题,共同作为目标大语言模型的输入,得到优化后的结果。

全文数据:

权利要求:

百度查询: 山东大学 面向行业大模型的多层次主题式检索增强生成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。