买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及基于压缩空间句子选择的目标新闻话题摘要方法,属于自然语言处理领域。本发明包括:构建目标新闻话题摘要数据集;使用句子重要性评估模块,过滤掉与话题描述无关的信息来压缩搜索空间,之后通过基于改进的Bert模型的文档集合编码器模块编码筛选后的文档集合和句子,然后通过计算编码后文档集合中句子的突出特征和重复特征,综合两种特征后提取出最终得分最高的句子组成话题的摘要。本发明融入话题关键描述词的指导并使用一种可以平衡突出特征和重复特征的句子选择方法,在压缩搜索空间的基础上提升生成的话题摘要的质量,为后续的目标监管等任务提供了支撑。
主权项:1.基于压缩空间句子选择的目标新闻话题摘要方法,其特征在于:所述方法的具体步骤包括:Step1、通过爬虫技术爬取目标新闻,选取与话题相关的新闻进行目标新闻话题摘要数据集的构建;进行数据去噪清洗和预处理;通过对爬取的目标新闻进行分析使每条新闻只属于一个话题簇,并对同一话题簇下的新闻文档做标注,得到文档中句子的标签,人工编写每个话题簇的参考摘要;Step2、通过定义的话题关键描述词筛选出各个文档中包含话题词且重要性评分最高的句子;使用改进的预训练模型对筛选后的文档集合和句子编码;通过突出度计算模块和重复特征计算模块得到两种句子特征;通过句子选择模型平衡生成摘要的突出特征和重复特征,计算句子得分,抽取得分高的句子得到包含准确话题信息的摘要;所述Step2的具体步骤如下:Step2.1、定义话题簇中的关键词,通过正则化匹配提取出含有关键词的句子集合,过滤掉包含无关信息的句子,再计算新闻文档中关键词的词频,得到句子的重要性得分,提取各文档中重要性得分最高的句子,组合成新的话题簇文档集合;Step2.2、采用基于改进的Bert模型的文档集合编码器来编码文档集合和句子得到表征;Step2.3、通过双线性映射函数衡量候选句子和尚未选择的句子的突出程度;Step2.4、在句子选择过程中计算候选句子和已选择的摘要句子的n元语法词组重合程度,并通过余弦相似度计算语义表征相似性,进行归一化与离散处理,将两种特征转换为one-hot向量表示并拼接融合得到重复特征向量;Step2.5、通过双线性映射函数平衡候选句子的突出度特征和重复特征,得到匹配向量,输入到多层感知机中得到候选句子的最终分数,选取分数高的句子放入摘要句子集合中得到话题摘要;所述Step2.2具体包括:经过句子重要性评估后,新组合而成的文档集合L中包含了m个目标新闻句子{l1,l2,…,lm},其中li表示集合中的第i个句子;为了得到高质量的句子和文档集合表征,考虑将Bert预训练模型适用到话题摘要任务;由于Bert模型是基于Token级别的编码,不是句子级别的编码,且模型的片段嵌入部分用来判断两个句子是否有关联,只包含两种类型的片段嵌入,不能直接运用到输入多个句子的话题摘要任务中,因此使用基于改进的Bert模型的文档集合编码器,在文档集合的每个句子li之前加入[CLS]标记用来汇总句子嵌入信息,末尾加入[SEP]标记以区分不同句子的界限,为了区分不同位置的句子,引入了Eodd和Eeven两种不同的间隔片段嵌入;对于句子li,如果i为奇数,则该句子的间隔片段嵌入为Eodd,反之i为偶数时嵌入为Eeven;通过这种编码方式每个句子可以获得句子的Token嵌入El、间隔片段嵌入EoddEeven以及位置嵌入Ep三种嵌入的融合;经过多个Transformer编码层编码后通过句子li之前的[CLS]标记输出的表征T[CLS]作为对应句子的表征,能记作E'li,E'li和每个句子表征在文档集合编码器中的位置嵌入E'p融合后组成一个输入的表示序列,在序列的头部加入一个能表示文档集合的嵌入Eset,组合成一个完整的文档集合-句子表征输入序列,输入到多个Transformer编码层中编码,最终得到完整的文档集合L的表征rset和句子编码表征rli;所述Step2.3具体包括:话题摘要任务需要提取出具有代表性的句子,也就是突出程度高的句子,因此在文档集合编码和句子编码的基础上设计了一个单步步骤的句子突出度计算模块;设文档集合L的人工编写的参考摘要为R,目标是从L中提取k个能概括关键信息的句子作为摘要句;对于第t个选择步骤,当前已经生成的摘要句子集合为设lj为L中尚未选择的句子,通过计算由文档集合编码器输出的集合表征rset和句子表征rli的双线性映射函数Fpro来衡量所选句子包含在参考摘要R中的概率; 其中Wbm为双线性映射的权重矩阵,能对rset和rli两个维度不同的向量分别做线性变换并将二者映射到另一个空间中;其目标函数是将训练样本中包含在参考摘要R中的句子的对数似然函数最大化; 双线性映射函数Fpro作为衡量当前候选句子li和尚未选择的句子lj的突出度评分函数,能计算出每个候选句子的注意力得分,也就是句子的突出度得分;所述Step2.4具体包括:计算出候选句子的突出度得分后,还需要计算句子的重复特征,在进行第t个选择过程时,首先计算该过程的n元语法模型匹配特征,它表示候选句子li和已选择的摘要句lt-1的n元语法词组的重合程度; 重合的词组越多表明重复的特征越多,为了准确计算重复特征,分别计算了一元、二元及三元语法模型的词组重合度;为了挖掘更深层的句子表征相似性,在得到n元语法模型的词组重合度的基础上,又融合了句子表征的最大语义相似性Fsim来计算重合特征; 为了将候选句子和已选句子的余弦相似度计算出的重合特征扩大数值差异,使用线性归一化将特征值离散到0和1之间; 重复特征计算模块计算出两种重复特征,将两种特征融合能得到整体的重复特征;首先将0到1的区间长度等分为c个分块,根据一元、二元和三元语法词组的重合度特征以及归一化的语义相似性特征将其数值离散到0到1之间等分的对应分块中,从而将每部分特征转换为长度为c的one-hot向量表示,并将各部分拼接融合,得到模块整体的重复特征向量表征Frepli; 式中为各部分的重复特征向量分块后的one-hot向量;所述Step2.5具体包括:通过句子突出度计算模块和重复特征计算模块得到突出度得分和重复性特征后,需要在句子选择模块中平衡这两种特征,使得选择的摘要句既要有一定的突出度又不能含有过多的重复性特征;在句子选择的第一步中,只提取突出度得分最高的句子作为摘要的第一句;通过计算突出度特征Fproli和重复特征Frepli的双线性映射函数来平衡候选句子li的两种特征,得到一个d维的映射匹配向量;将其输入到MLP中得到句子的最终得分SCli; 其中为两种特征的双线性映射矩阵,Wh为MLP的权重矩阵;句子选择模块在训练过程中从参考摘要R里随机选择句子,让模型学习上下文信息,而且学习寻找下一个突出且不重复的句子,目标函数为 目标函数表示在第t个过程中,选择任何句子li的概率是句子得分SCli在L中剩余的句子lj上的softmax函数;句子选择模块的损失与句子选择的顺序无关,因为在训练过程中给定的句子是一组无顺序的句子,模块的选择对象总是下一个突出又不重复的句子,最终得到句子集合作为生成的话题摘要。
全文数据:
权利要求:
百度查询: 昆明理工大学 基于压缩空间句子选择的目标新闻话题摘要方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。