买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了一种基于回复感知的会话式信息检索方法,该方法首先对文档D利用大语言模型进行编码;对于一组会话式查询,针对查询,基于使用BM25算法,分别获取对应反馈集。其次基于反馈集利用大语言模型编码,通过超空间语义方法,获得扩展词。然后将查询进行编码获,与扩展词,拼接成新的查询,并计算其与文档编码后语义相似度,并对语义相似度从大到小进行排序,并计算损失进行训练。最后使用训练好的模型,对测试集查询进行检索,得到检索的排序结果。本发明提高上下查询回复的连续性,并且添加回复作为扩展词候选项来减小噪声,为用户带来流畅,个性化的信息和建议。
主权项:1.一种基于回复感知的会话式信息检索方法,其特征在于,包括如下步骤:S1:对文档D利用大语言模型进行编码得到ED*;S2:对于一组会话式查询Q1:k,k>1,针对第k轮次的查询Qk、上一条查询Qk-1,基于BM25算法,分别获取对应反馈集,具体过程为:对于一组会话式查询Q1:k,k>1,针对第k轮次的查询Qk,使用BM25算法计算查询词与每个文档D的得分Scoreqk,D,取其前n个文档在S1中相应已编码的文档D*输入到基于对比学习的句向量表示SimSCE中,计算语义相似度,获得其中R1排名最高的文档作为反馈集R1,|R1|表示经过SimSCE重新排序之后的所取的文档数;找到该查询上一条查询Qk-1,同上述操作获得其反馈集R2;S3:基于反馈集利用大语言模型编码,通过超空间语义方法,获得扩展词,具体实现过程如下:使用超空间语义方法HAL增加动态窗口的方法,实现扩展词词频的计算,取Qk中的查询词q1:m,找到其在各个文档中的位置,计算附近词的词频来选做候选词的选项;假设窗口大小为W,使用动态窗口函数fd,计算公式如下:fd=W-d+1其中查询词在位置i,上下文词在位置j,词ri和rj的距离为d=|i-j|;根据动态窗口函数更新超空间语义权重Whal,对于每个扩展项rij,计算公式如下: 其中pri,d,qi表示候选扩展项ri与查询词qi在距离为d的情况下的共同出现的词数;计算文档词项权重,采用BM25计算相应的权重大小,设基于BM25模型的候选扩展词重要度为Wdocr,计算公式如下: 与文档查询计算相似度不同的是使用扩展词ri计算重要度,使用相同的公式分别得到扩展词r1,r2,r3的文档重要度权重;将两个权重进行合并成一个候选词权重Wr,计算公式如下:W1r1=λ1·Whalr1+1-λ1·Wdocr1W2r2=λ2·Whalr2+1-λ2·Wdocr2W3r3=λ3·Whalr3+1-λ3·Wdocr3其中λ1,λ2,λ3是平衡每个类别的扩展词中超空间语义权重和文档权重的参数,W1,W2,W3分别表示三种不同计算权重的扩展词权重,分别对应当前查询文档扩展词,历史查询文档扩展词和历史回复扩展词,取扩展词权重Wirij按照排序从大到小选取扩展词r1,r2,r3;S4:将Qk进行编码获得Qk*与扩展词,拼接成新的查询Q′k,并计算ED*与Q′k语义相似度,并对语义相似度从大到小进行排序,得到检索的排序结果,并计算损失进行训练,并对测试集查询进行检索。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于回复感知的会话式信息检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。