买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:陕西师范大学
摘要:一种基于BERT模型的两阶段民间故事检索方法,由收集民间故事、民间故事数据预处理、构建民间故事数据集、一阶段构建向量搜索引擎、筛选候选民间故事集合、训练BERT模型、二阶段确定相关度、展示检索结果步骤组成。采用本发明与现有的传统检索方法进行了对比试验,实验结果表明,本发明可以更好地了解民间故事的上下文信息,更好地将查询请求与民间故事结合起来,在提升了检索准确率的同时还加快了检索速度。本发明具有检索结果准确、检索速度快等特点,可以在海量的民间故事中准确找到用户想要了解的民间故事。
主权项:1.一种基于BERT模型的两阶段民间故事检索方法,其特征在于由下述步骤组成:1收集民间故事从民族民间文化资源管理系统中找到民间故事部分,采用爬虫方法将民间故事中的文本数据爬取下来,得到民间故事;2民间故事数据预处理删除民间故事内容中的乱码、内容为空、与内容不符、同义词随机替换的部分;3构建民间故事数据集将民间故事处理成标题-内容的民间故事对,制作成民间故事数据集Y,Y∈{t1:c1,t2:c2,…,tn:cn},其中tn表示第n个民间故事的标题,cn表示第n个民间故事的内容,n选取10000条民间故事,按9:1的比例分为训练集、测试集;4一阶段构建向量搜索引擎采用BERT-whitening模型将民间故事数据集Y转化成词向量J,用Faiss检索方法对词向量J建立数据库向量D,D∈{d1,d2,…,dn},将数据库向量D采用倒排快速索引方法分割为N个空间,N为有限的正整数,构建成向量搜索引擎;5筛选候选民间故事集合将用户的查询请求q通过BERT-whitening模型转化成查询向量qV,将查询向量qv与数据库向量D按下式确定余弦相似度cosθ: 其中·表示点积操作,d表示数据库向量中的一个向量,||||表示取模操作,返回前k个候选民间故事集合G,G∈{g1,g2,…,gk},k取值为20~50;6训练BERT模型将民间故事数据集Y输入至BERT模型进行训练,按下式确定交叉熵损失函数Ly,a:Ly,a=y×lna+1-y×ln1-a其中,y为真实值,y取值为0或1,a为预测值,a∈0,1;模型的学习率r∈[10-5,10-3],丢弃率取值为[0.05,0.1],训练轮数为[10,15],每轮训练的批尺寸为8,优化器选择Adam,迭代至交叉熵损失函数Ly,a收敛;7二阶段确定相关度将训练好的BERT模型输出的词嵌入E和第l个编码层的输出Xl,l为有限的正整数,对查询请求q和候选民间故事集合按下式确定候选民间故事集合G的相关度F1:E=Es+Ep+EtX1=E Q=Xl-1×WQK=Xl-1×WKV=Xl-1×WVF1=sH12其中表示多头注意力计算的输出,Es表示句子词嵌入,Ep表示位置词嵌入,Et表示词嵌入,C表示将注意力矩阵连接操作,Aj表示注意力矩阵,sH12表示softmax函数,Xl-1是BERT模型的第l-1层输出,dk是输入向量的维度,j表示多头注意力的个数,WQ,WK,WV是线性映射矩阵,Q、K、V表示在训练过程中学习参数矩阵;按下式确定相关度F:F=0.5×F1+0.5×F2 wi=sri其中,F2表示查询请求和候选民间故事子片段的相似度和,ri表示查询请求和候选民间故事子片段的相似度,wi表示每个子片段相关度的权重,sri表示softmax函数;8展示检索结果将相关度F进行由高到低的排序,相似度最高的民间故事作为最终检索结果展示给用户。
全文数据:
权利要求:
百度查询: 陕西师范大学 基于BERT的两阶段民间故事检索方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。