买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海应用技术大学
摘要:本发明提供了一种基于知识图谱的文本摘要生成方法,包括如下步骤:对原始数据进行信息抽取形成数据集,将数据集中一条数据的标题和知识图谱分别进行编码处理,获得第一编码向量和第二编码向量;第一编码向量和第二编码向量进行拼接获得上下文向量;结合上下文向量和各时间步的输出计算出词表概率分布,复制概率和复制分布;对词表概率分布和复制分布做加权计算,获得最终概率分布。本发明能够根据标题和知识图谱生成对应的文本摘要,而且还根据上下文向量判断固定词汇表中是否具有足够的词汇去生成对应的文本摘要,在固定词汇表中词汇不足时,还可以通过复制数据集中的词汇用于生成文本摘要,从而提高了文本摘要生成的精度。
主权项:1.一种基于知识图谱的文本摘要生成方法,其特征在于,包括如下步骤:对原始数据进行信息抽取形成数据集,其中,所述数据集中的每一条数据均包含同一篇文章的标题和知识图谱;将所述数据集中一条数据的标题和知识图谱分别进行编码处理,获得第一编码向量和第二编码向量;所述第一编码向量和第二编码向量进行拼接获得上下文向量;结合上下文向量和各时间步的输出计算出词表概率分布,复制概率和复制分布;对所述词表概率分布和复制分布做加权计算,获得最终概率分布;根据最终概率分布选择对应的每一时间步的候选输出,通过候选输出生成文本摘要;其中,在对所述知识图谱在编码处理时,对所述知识图谱的每个前节点计算其本身的信息,且计算邻接节点的信息,其计算公式为: 其中,为Vi节点编码进邻居节点信息的向量,i是计算信息的当前节点编号,j是当前节点的邻居节点编号,V是节点符号,Vi是节点i的向量,其维度是d,N代表当前节点拥有的邻居节点总数,n是注意力头的编号,H是模型中的注意力头的总数,是第n个注意力头中节点i对节点j的注意力值,是多头注意力机制中第n个注意力头的参数矩阵,其维度是d×d,其值随模型训练而得,初始值随机生成;其中,各所述时间步的输出采用覆盖机制进行处理,所述覆盖机制的计算公式为: 其中,Ni代表第i个节点的邻居节点集合,i、j和z分别是节点的编号,其中k和q都是与节点向量维度一致的向量,WK和WQ都是维度为d×d的参数矩阵,其初始值随机生成,并在训练中随模型学习而更新,k由节点向量左乘WK而得,q由节点向量左乘WQ而得,ωc是维度为d的参数向量,初始值随机生成,随模型学习而更新,cit是i节点的第t个时间步的覆盖向量,battn是初始值随机生成,随模型学习而更新的偏置值;其中,所述覆盖向量ct由所有时间步的注意力概率分布求和得到,其计算公式为: 其中,t代表第t个时间步,t'是求和标记的编号,t'从第0个时间步开始,一直取到第t-1个时间步,将时间步的所有注意力分布求和;其中,所述覆盖机制采用覆盖损失来惩罚对同一词语重复关注,其计算公式为: 其中,是第i个节点的注意力分布,ωt*是目标词,-logP是负对数最大似然公式,λ是一个初始值随机生成的随模型学习而更新的参数;其中,所述知识图谱的上下文向量的计算公式为; 其中,ht是解码器的隐层向量,N是注意力头的总数,V是知识图谱所有节点的集合,是第n注意力头中节点j的注意力分布,vLj是图的编码矩阵中的第j列。
全文数据:
权利要求:
百度查询: 上海应用技术大学 基于知识图谱的文本摘要生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。