Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种大模型的知识数据排列方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:京华信息科技股份有限公司

摘要:本发明公开了一种大模型的知识数据排列方法,涉及自然语言处理技术领域,所述方法具体包括步骤根据输入文本构建数据集,对数据集进行数据筛选和合并,相似度运算得到相似连属集合,使用相似连属集合构建统计模型,计算不同输入长度下的敏感度分布,获取输入的问题,根据输入的问题从知识数据排列后的知识库得到答案。本发明实现了克服了因为输入的问题与知识库中字段的不匹配造成的大数据知识模型的匹配问题。

主权项:1.一种大模型的知识数据排列方法,其特征在于,所述方法包括以下步骤:步骤1,根据输入文本构建数据集;步骤2,对数据集进行数据筛选和合并,相似度运算得到相似连属集合;步骤3,使用相似连属集合构建统计模型,计算不同输入长度下的敏感度分布;步骤4,获取输入的问题,根据输入的问题从知识数据排列后的知识库得到答案;步骤1中,根据输入文本构建数据集的子步骤为:把输入的问题字段,相关背景信息字段和答案字段构造为三元组q,i,a,所有所述三元组记第一数据集为集合SetA,SetA={q1,i1,a1,q2,i2,a2,q3,i3,a3,……,(qx,ix,ax)},其中,qx,ix,ax分别为SetA中序号为x的输入的问题字段,相关背景信息字段和答案字段,qx,ix,ax为集合SetA中任意元素,x的取值范围为[1,X],X为集合SetA的大小;记第二数据集为集合SetB,SetB={d1,d2,d3,……},SetB中的元素为文本段;获取大模型的输入为C,对C以预设的长度d进行划分得到多个片段,划分后的片段构成第三数据集SetS={s1,s2,s3,……};步骤2中,对数据集进行数据筛选和合并,相似度运算得到相似连属集合的子步骤为:对第三数据集中的每个片段与第一数据集合进行相似度运算构造与第三数据集中每个元素对应的相似连属集合CAB,具体为:步骤2.1,取第一数据集SetA中的三元组元素qx,ix,ax,把相关背景信息字段ix分别与第二数据集SetB中的元素进行相似度运算获得相似度,文本相似度越高相似度越大,并根据获得的相似度对第二数据集SetB中的元素进行升序排序;从排序后的第二数据集SetB中按顺序提取设定数量的元素组成集合B',限制字段ix与集合B'中任意元素的总大小与sy片段的长度的差异小于0.2d,集合B'的大小为n;步骤2.2,将ix分别与B'x中所有片段进行拼接,拼接获得的文本构成第二合并文本集合,具体为:将ix依次与B'x中的片段语义拼接,获得拼接文本集合D,其中,ix在拼接文本中的位置根据语义确定,拼接文本的数量为n+1,D={d1,d2,d3,……,dn+1};根据ix在拼接文本中的位置组成第一位置集合,P={p1,p2,p3,……};其中,所述文本中的位置用百分比表示;步骤2.3,第一位置集合P中的元素与拼接文本集合D的元素对应构造二元组,所有二元组构成相关信息集合Ix={d1,p1,d2,p2,d3,p3,……};步骤2.4,用相关信息集合Ix中的元素分别替换SetA的三元组中的ix字段得到第二合并文本集合Csx;步骤2.5,依次对第三数据集中的每个片段与第一数据集合进行相似度运算,构造与第三数据集中每个元素对应的第二合并文本集合,所有第二合并文本集合构成相似连属集合CAB={Csx};步骤3中,使用相似连属集合构建统计模型,计算不同输入长度下的敏感度分布的子步骤为:步骤3.1,将第三数据集SetS的位置区间按固定或随机百分比划分为多个区间,获得的所有区间记为集合SetS'={s'1,s'2,s'3,……};区间划分大小根据区间集合SetS中元素长度来调节,长度小,划分粒度就大;长度大,则划分粒度就细;步骤3.2,根据相似连属集合CAB计算与第三数据集SetS中每个片段在不同长度的输入下的敏感度分布:遍历相似连属集合CAB中每个元素Csx,从Csx中的三元组提取相关信息Ix字段,对相关信息Ix字段中的二元组dy,py加入到提示模板中构造文本内容seqx,对所述文本内容seqx在输入模型中进行推理得到推理答案,所述推理答案与Csx的三元组中的答案字段进行对比,对比后获得相似度sim;步骤3.3,获取SetS'中所有区间的元素的相似度sim,构造相似度二元组pi,simi其中pi位于区间s'i中,区间获得的相似度二元组构成集合Ex;计算Ex中所有相似度的平均值记为敏感度系数,得到敏感度分布集合;步骤3.4,依次计算SetS'中区间所有元素的相似度;步骤4中,获取输入的问题根据输入的问题从知识数据排列后的知识库得到答案的子步骤为:步骤4.1,获取输入的问题r,根据所述输入的问题从支持文本相似度检索的预存储有知识库内容数据库中搜索获得参考文档,并计算所述参考文档与输入的问题的相关度score,对参考文档根据获得的对应的相关度进行降序排序,构造集合R={[r1,score1],[r2,score2],[r3,score3],……,[rm,scorem]},其中,r1指第一个参考文档,score1指r1对应的相关度,集合R的大小为m;步骤4.2,统计R中文本的总长度LR,从第三数据集SetS中搜索与LR长度最接近的区间sn,获取区间sn对应的敏感度分布数据;步骤4.3,遍历R中参考文档所有文本的排列组合,对于其中任意一种排列,计算每个参考文档中位于合并后文本的位置,获得的所有参考文档位置构成集合,其中,为在当前排列中位置;根据所述位置从获取对应的敏感度系数集合,其中为根据从获取对应位置区间所对应的敏感度系数,根据所述敏感度系数计算敏感度得分,计算公式如下: ,在Score得分最高时候对应R中元素的排列,即为模型输入最佳排列。

全文数据:

权利要求:

百度查询: 京华信息科技股份有限公司 一种大模型的知识数据排列方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。