Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种针对规章制度的企业知识问答方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:长江证券股份有限公司

摘要:本发明提供了一种针对规章制度的企业知识问答方法及系统,步骤S1:构建规章制度数据库,并通过规章制度知识库对语言大模型和语言小模型进行训练;步骤S2:接收前端提出的问题,判断问题是否与企业规章制度相关,如果是则进入步骤S3;步骤S3:将问题拆解为若干个单目标问题;步骤S4:将若干个单目标问题输入训练好的语言小模型,将问题对应的答案返回前端进行显示;当语言小模型无法找到答案时,则在规章制度数据库中进行相似文档匹配和召回得到对应的知识块;步骤S5:将知识块输入语言大模型进行总结,生成答案后返回前端进行显示。小模型和大模型的协同工作优化了资源利用,在保证精准性的同时,增强了系统的鲁棒性。

主权项:1.一种针对规章制度的企业知识问答方法,其特征在于:包括以下步骤:步骤S1:构建规章制度数据库,并通过所述规章制度数据库对语言大模型和语言小模型进行训练;步骤S2:接收前端提出的问题,判断所述问题是否与企业规章制度相关,如果是则进入步骤S3;步骤S3:将所述问题拆解为若干个单目标问题;步骤S4:将若干个所述单目标问题输入训练好的语言小模型,将问题对应的答案返回前端进行显示;当语言小模型无法找到答案时,则在所述规章制度数据库中进行相似文档匹配和召回得到对应的知识块;步骤S5:将所述知识块输入所述语言大模型进行总结,生成答案后返回前端进行显示;构建规章制度数据库的方法包括以下步骤:步骤S11:识别规章制度文件,生成文本信息并进行编码;步骤S12:将所述文本信息进行分段,采用分段后的文本对摘要提示词模板进行填充后输入所述语言大模型,生成摘要信息并进行编码;步骤S13:确定文档的结构目录类型,选择对应的提示词模板,抽取文本的条目信息并进行编码;步骤S14:对步骤S13中的条目信息进行逐句拆分、解析及编码,生成句子编码信息;步骤S15:对步骤S13中的条目信息进行分词,统计条目中的关键词和词频,生成到分词信息并进行编码;步骤S16:将步骤S11至步骤S15得到的信息和对应的编码进行映射,并通过设定的文件Id和条目Id进行关联后存入数据库;步骤S13中生成文本条目信息的方法包括:按照生成式大模型的最优token输入数,将规章制度文件拆分为多个子文件,每个子文件由若干页组成,之后输入生成式大模型,生成条目信息;步骤S13还包括对生成的条目信息进行匹配度检查:将所述条目信息逐条与文本信息进行匹配,当首尾n个字符完全匹配,中间文本相似度在设定阈值以上时匹配成功,当匹配不成功时,则调整所述向前兼容token长度对条目对应页进行重新解析;步骤S13还包括对生成的条目信息进行覆盖率检查,当当前页的覆盖率没有达到设定阈值时,则调整当前页的所述向前兼容token长度进行重新解析;在步骤S13中,调整所述向前兼容token长度的方法包括:获取上次解析的最后一个条目,将最后一个条目与上一次的解析文本进行匹配;当匹配成功时,设定匹配该条目之后的所有文本长度为向前兼容token长度;当匹配不成功时,计算最近10条条目的条目平均长度,基于所述条目平均长度,往前遍历,遇到句号或者段落结束停止,将条目平均长度加上遍历长度,则为向前兼容token长度;当重新解析的次数大于设定的第一解析次数阈值时,则在调整所述向前兼容token长度的同时,将下一页中解析成功的第一个条目之前的文本作为向后兼容文本加入当页进行解析,并剔除当页已经成功解析的条目;当重新解析的次数大于设定的第二解析次数阈值时,向前兼容一页,向后兼容一页,并不再剔除条目,并且将生成式大模型的温度参数调高,topk参数调大。

全文数据:

权利要求:

百度查询: 长江证券股份有限公司 一种针对规章制度的企业知识问答方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。